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第一章事件的概率 

1.1 概率是什么 

概率，又称或然率，几率，是表示某种情况（事件）出现的可能 
性大小的一种数量指标，它介于0与1之间. 

这个概念笼统地说起来很容易理解，但若从理论或者说从哲 
学的高度去分析，就可以提岀一大堆的问题.虽然在本课程范围内 
我们不必去深人讨论这些问题的各个方面，但仍希望，通过下文的 
叙述，使读者对“什么是概率”这个问题，有一个较为全面的理解. 

1.1.1 主观概率 

甲、乙、丙、丁四人一早迸城去办事，要傍晚才能回来.为了决 
定是否带伞，各自在出发前，对 

A 二 I 今天下午6时前不会下雨1 
这个情况或事件发生的可能性大小作个估计.设根据个人的经验 
和自信，甲、乙、丙、丁分别把这一可能性估计为0,0.2,0.7和 1. 
这意味着甲认为事件不可能出现，丁认为必然出现，乙认为 A 
出现的可能性是有的，但很小，而丙认为 A 有相当大的可能性出 
现，但并非必然.这些数字反映了他们四个人对一种情况的主观估 
计，故称为主观概率.其实际后果是，例如，甲、乙决定带伞而丙、丁 
则否. 

主观概率可以理解为一种心态或倾向性.究其根由大抵 有二： 
一是根据其经验和知识.拿上例来说，若某人在该城市住了 30年， 
又是一个有些气象知识的人，他在作出可能性大小的估计时，多半 
会使用这些经验和知识，这将会使他的估计较易为人所相信.从这 
一点说，所谓主观概率也可有其客观背景，终究不同于信口雌黄. 



二是根据其利害关系.拿上例来说，若对某人而言下雨并不会造成 
多大问题而带伞又增加不少麻烦，则其心态将倾向于去把 A 的可 
能性高估一些. 

主观概率的特点是 ：它不 是在坚实的客观理由基础上为人们 
所公认的，因而看来应被科学所否定（科学是以探讨客观真理为任 
务的）.本书作者说不清楚这问题该如何全面地去理解，但不同意 
简单的全盘否定的态度.理由 有三： ①这个概念有广泛的生活基 
础.我们几乎无时不在估计种种情况出现的可能性如何，而不同的 
人很少能在“客观”的基础上达成一致.②这可能反映认识主体的 
一秤倾向性，而有其社会意义.例如，“若问三年后经济形势会得到 
根本改善”的可能性大小怎样，则不同经济状况、社会地位以至政 
治倾向的人，会作出有差异的估计.就个別估计而言可能谈不上多 
大道理，但从总体而言，则反映了社会上广大群众对长远发展的信 
心如何.对社会学家乃至决策者来说，这是很有用的资料.③在涉 
及利益（经济和其他的）得失的决策问题中，处于不同地位和掌握 
情报多少不同的人，对某事件可能性大小要参照这些情况及可能 
的后果去作衡量.适合于某人的决策，虽则风险较小，不必适合于 
另一个人，因对他而言，这一决策可能风险仍太大.因此，主观概率 
这个概念也有其实用基础.事实上，许多决策都难免要包含个人判 
断的成分，而这就是主观概率. 

1.1.2 试验与事件 

前面我们已经提到了“事件”这个名词.事件是什么？在通常 
的意义下，它往往是指一种已发生的情况，例如某某空难事件， 
1941年日本偷袭珍珠港的事件之类.在概率论中则不然，事件不 
是指已发生了的情况，而是指某种(或某些)情况的“陈述”.它可能 
发生，也可能不发生，发生与否，要到有关的“试验”有了结果以后， 
才能知晓. 

拿前例而言，事件 A “陈述”了这样一种情况 ：下午 6时前不 
会下雨.我们当然并未说这已发生了 .它是否发生，要等试验结果， 



这个试验，就是对到下午 6 时前的天气情况进行观察. 

推而广之，我们就不难 明白： 在概率论中，“事件”一词的一般 
含义是这 样的： 

1. 有一个明确界定的试验.试验一词，有人为主动的意思，而 
像上例那样，人只处在被动地位，只是记录而并不干预气象过程. 
这类情况一般称为“观察”.在统计学中，这一分别有时有实际含 
义，但对目前的讨论不重要，可以把试验一词理解为包含了观察. 

2. 这个试验的全部可能结果，是在试验前就明确的，拿上例 
来说，试验的全部可能结果只有 两个: 其一是 A ，另一是万=丨今 
天下午6时前会下雨 L 为此，可把这试验写为 （ A ， A ). 不必等到 
试验完成（不必到下午6时）就知 道：非 A 即 X ，必居其一.又如， 
投掷一个赌博用的骰子这个试验，虽无法预卜其结果如何，但总不 
外乎是“出现1点”，……，“出现6点”这6个可能结果之一，因而 
不妨把这试验简记为（1，2,… ,6). 

在不少情况下，我们不能确切知道一试验的全部可能结果，但 
可以知道它不超出某个范围.这时，也可以用这个范围来作为该试 
验的全部可能结果.如在前例中，若我们感兴趣的不止在于下午6 
时前是否下雨，而需要记录下午6时前的降雨量（如以毫米为单 
位），则试验结果将是非负实数 x . 我们无法确定 x 的可能取值的 
确切范围，但可以把这范围取为 [0, oo ) ，它总能包含一切可能的试 
验结果，尽管我们明知，某些结果，如 ： C >10000,是不会出现的.我 
们甚至可以把这范围取为（- 00 ，° o ) 也无妨 •这 里就有了一定的数 
学抽象，它可以带来很大的方便，这一点在以后会更清楚. 

3. 我们有一个明确的陈述，这个陈述界定了试验的全部可能 
结果中一确定的部分.这个陈述，或者说一确定的部分，就叫做一 
个事件.如在下雨的例中， A 是全部可能结果 （ a ， A ) 中确定的一 
部分_在掷骰子的例中，我们可以定义许多事件，例如 

= I 掷出偶数点 t = (2,4,6) 

E 2 = i 掷出素数点丨二 (2,3,5) 

E , = 1掷出3的倍数点丨= (3,6) 
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等等，它们分别明确地界定了全部试验结果的集合 （1，2, …， 6) 中 
的一个相应的部分. 

如果我们现在把试验做一次，即把这骰子投掷一次.则当投掷 
结果为2,或为4,或为6时，我们说事件“发生了”，不然就说事 
件 EV ‘不发生”.因此，我们也可 以说： 事件是与试验结果有关的一 
个命题，其正确与否取决于试验结果如何. 

在概率论上，有时把单一的试验结果称为一个“基本事件”.这 
样，一个或一些基本事件并在一起，就构成一个事件，而基本事件 
本身也是事件.在掷骰子的例中，有1，2,…，6等6个基本事件.事 
件£ 2 则由2,3,5这三个基本事件并成. 

设想你处在这样一种 情况: 投掷一个骰子，若出现素数点，则 
你将中奖.则在骰子投掷之前你会这样想 ：我能 否中奖，取决于机 
遇.因此，在概率论中，常称事件为“随机事件”或“偶然事件”.“随 
机”的意思无非是说，事件是否在某次试验中发生，取决于机遇.其 
极端情况，是“必然事件”（在试验中必然发生的事情，例如，丨掷一 
个骰子，其出现点数不超过6丨）和“不可能事件”（在试验中不可能 
发生的事件）.这两种情况已无机遇可言，但为方便计，不妨把它们 
视为随机事件的特例，正如在微积分中，常数可视为变量的特例. 

可以把必然事件和不可能事件分别等同于概率为1和概率为 
0的事件.从严格的理论角度而言这二者有所区别，但这种区别并 
无实际的重要性. 

本段讲的概念虽很浅显，但是很重要，特别提醒读者区別“事 
件”一词的日常及在概率论中的不同含义. 

1.1.3 古典概率 

承接上一段.假定某个试验有有限个可能的结果 ei , e 2 ，…， 
假定从该试验的条件及实施方法上去分析，我们找不到任何 

理由认为其中某一结果，例如比任一其他结果，例如更具有 
优势（即更倾向于易发生），则我们只好认为，所有结果 〜…， eN 
在试验中有同等可能的出现机会 ， gp 1/ N 的出现机会.常常把这 
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样的试验结果称为“等可能的”. 

拿掷骰子的例子而言，如果①骰子质料绝对均匀.②骰子是绝 
对的正六面体.③掷骰子时离地面有充分的高度，则一般人都会同 
意，其各面出现的机会应为等可能.当然，在现实生活中这只能是 
一 种近似，何况，在骰子上刻上点数也会影响其对称性. 

在“等可能性”概念的基础上，很自然地引进古典概率的定义. 

定义 1.1 设一个试验有 iV 个等可能的结果，而事件£:恰包 
含其中的 M 个结果，则事件£的概率，记为 P ( E ) ，定义为 

P ( E ) 二 M/N (1.1) 

本定义所根据的理由很显然.按前面的分析，由等可能性的含 
义，每个结果的概率同为 1/ N . 今事件£：包含 M 个结果，其概率 
理应为 1/ N 的 M 倍，即 M / iV . 古典概率是“客观”的.因为，如果 
等可能性是基于客观事实（例如在骰子绝对均匀且为严格正六面 
体时)而非出于主观设想，则看来除按 （1 J ) 式外，别无其他的合理 
定义法.因此在等可能性的前提下， （1.1) 式应为大家所公认.这 
样，关键就在于保证这等可能性成立无误 ，在 开奖时要设计适当的 
方法并设置公证人，这些措施都是为了保证所用方法导致等可能 
的结果. 

设有一个坛子，其中包含 iV 个大小和质地完全一样的球 ， M 
个为白球， A /- M 个为黑球.将这 iV 个球彻底扰乱，蒙上眼睛，从 
中抽出一个,则人们都能接 受：“ 抽到白球”这个事件的概率，应取 
为 M / iV . 这个“坛子模型”看起来简单却很有 用：它 是在一切概率 
的讨论中，唯一的一个易于用形象的方法加以体现的情况.日常习 
用的按“抽签”来保证机会均等的做法，就是基于这一模型.有了这 
一模型，我们可以把一些难于理解的概率形象化起来而获得感性. 
如在“下雨”那个例中,说乙估计事件 A 的概率为0.20,这听起来 
不甚了然和不好理解.但如乙说“我认为 A 发生的机会，正如在4 
黑球1白球中，抽出白球的机会”，则人们就感到顿时领悟了他的 
意思. 

古典概率的计算主要基于排列组合，将在下一节举一些例子 
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来说明.这个名称的来由是远自16世纪以来，就有一些学者研究 

了使用骰子等赌具进行赌博所引起的“机会大小”的问题，由此结 
晶出概率论的一些最基本的概念，如用 （1. U 式定义的概率（赌博 
中各种结果自应公认为等可能的）及数学期望（见下章）等.其中一 
个著名的问题是“分赌本问题”.在下面已简化了的例中，我们来看 
看，使用古典概率的概念，如何使这个问题达到一个公正的解决. 

例 1.1 甲、乙两人赌技相同，各出赌注500元. 约定： 谁先胜 
三局，则谁拿走全部1000元.现已赌了三局，甲二胜一负而因故要 
中止赌博，问这1000元要如何分，才算公平？ 

平均分对甲欠公平，全归甲则对乙欠公平.合理的分法是按一 
定比例而甲拿大头.一种看来可以接受的方法是按已胜局数分，即 
甲拿2/3,乙拿1/3.仔细分析，发现这不合理，道理如 下：设 想继续 
赌两局，则结果无非以下四种情况 之一： 

甲甲，甲乙，乙甲，乙乙， （1.2) 

其中“甲乙”表示第一局甲胜第二局乙胜，余类推.把已赌过的三局 
与 （1.2) 中这四个结果结合（即甲、乙赌完五局），我们 看出： 对前三 
个结果都是甲先胜三局，因而得仟元，只在最在一个结杲才由乙得 
仟元.在赌技相同的条件下， （1.2) 中的四个结果应有等可能性.因 
此，甲、乙最终获胜可能性大小之比为3:1.全部赌本应按这比例 
分，即甲分750元，乙分250元，才算公正合理. 

这个例子颇给人启发，即表面上看来简单自然的东西，经过深 
入一层的分析而揭示了其不合理之处.这个例子还和重要的“数学 
期望”的概念相关，见第二章. 

古典概率的局限性很显然 ：它只 能用于全部试验结果为有限 
个，且等可能性成立的情况.但在某些情况下，这概念可稍稍引申 
到试验结果有无限多的情况，这就是所谓“几何概率”，举一个例 
子. 


例 1.2 甲、乙二人约定1点到2点之间在某处碰头，约定先 
到者等候10分钟即离去.设想甲、乙二人各自随意地在 1—2 点之 
间选一个时刻到达该处，问“甲乙二人能碰上”这事件£的概率是 



多少？ 

以1点钟作原点，一分为单位， 

把甲、乙到达时间：构成的点（ X ， 
jy ) 标在直角坐标系上.则图 1.1 中的 
正方形 OABC 内每个点都是一个可 
能的试验结果，而这个正方形就是全 
部可能的结果之集.“甲、乙二人各自 
随意地在 1—2 点之间选一个时刻到 
达该处”一语，可以理解为这正方形 
内任一点都是等可能，按约定，只有 
在点（: T ，>；) 落在图中的多边形 
OFGBHI 内时，事件£才发生.因正方形内包含无限个点，古典概 
率定义 （1.1) 无法使用.于是，我们把“等可能性”这概念按本问题 
特点引申一 下：正 方形内同样的面积有同样的概率.全正方形的面 
积为60 2 =3600,而易算出上述多边形的面积为1100.按上述引申 
了原则，算出事件 E 的概率为 P (£) = 1100/3600= 11/36. 

这样算出的概率称为“几何概率”，因它是基于几何图形的长 
度、面积、体积等而算出的.就本例而言，重要之点在于把等可能性 
解释或引申为“等面积，等概率”.其他一些可用几何概率处理的问 
题，都需要作类似的引申.在某些较复杂的问题中，几种引申看来 
都可接受，由此可算出不同的结果.这并无矛盾可言，因为每一种 
不同的引申，意味着对“等可能性”的含义作不同的解释.问题在于 
哪一种解释最符合你的问题的实际含义. 

1.1.4 概率的统计定义 

从实用的角度看，概率的统计定义无非是一种通过实验去估 
计事件概率的方法.拿“掷骰子”这个例子来说，若骰子并非质地均 
匀的正方体，则投掷时各面出现的概率不必相同.这时，“出现么 
点”这个事件 A 的概率有多大，已无法仅通过一种理论的考虑来 
确定.但我们可以做实验 ：反复 地将这骰子投掷大量的次数，例如 



图 1.1 



n 次.若在这次投掷中么共出现次，则称 m x / n 是仏这个 
事件在这 H 次试验(每次投掷算作一个试验）中的“频率”.概率的 
统计定义的要旨是说，就拿这个频率 m x / n 作为事件丑、的概率 
^( i ^) 的估计.这个概念的直观背景很 简单： 一事件出现的可能性 

大小，应由在多次重复试验中其出现的频繁程度去刻画. 

一般的情况与此毫无区别，只须在上文的叙述中，把“掷骰子” 
改换成某个一般的试验，而把“出现么点”这事件改换成某个 
指定的事件即可.要点在 于：该 试验必须能在同样条件下大量次数 
重复施行，以便我们有可能观察该事件的频率. 

读者恐怕已注意到上述定义中的不足之处，即频率只是概率 
的估计而非概率本身，形式上可以用下面的说法来解脱这个困难. 
把事件 E 的概率定义为具有如下性质的一个数户：当把实验重复 
时，£的频率在户的附近摆动，且当重复次数增大时，这摆动愈来 
愈小.或者干脆说 :概率 就是当试验次数无限增大时频率的极限. 
要这样做，就必须回答下述问题 ：你怎 样去证明具有上述性质的数 
P 存在，抑或/>的存在只是一个假定？ 

依本书作者的观点，“概率的统计定义”的重要性，不在于它提 

供了一种定义概率的方法-它实际上没有提供这种方法，因为 

你永远不可能依据这个定义确切地定出任何一个事件的概率.其 
重要性在于两点:一是提供了 一 种估计概率的方法，这在上文已谈 
到了，这种应用很多•例如在人口的抽样调查中，根据抽样的一小 
部分人去估计全部人口的文盲 比例； 在工业生产中，依据抽取的一 
些产品的检验结果去估计产品的废 品率； 在医学上依据积累的资 
料去估计某种疾病的死亡率等.二是它提供了一种检验理论正确 
与否的准则.设想根据一定的理论、假定等等算出了某事件八的 
概率为/)，这理论或假定是否与实际相符？我们并无把握.于是我 
们可诉诸实验，即进行大量重复的试验以观察事件 A 的频率 m / 
n ， 若 m /7 i 与 p 接近，则认为实验结果支持了有关理论，若相去较 
远，则认为理论可能有误.这类问题属于数理统计学 的一个 重要分 
支——假设检验，将在本书第五章中讨论. 



1.1.5 概率的公理化定义 


数学上所说的“公理”，就是一些不加证明而承认的前提.这些 
前提规定了所讨论的对象的一些基本关系和所满足的条件，然后 
以之为基础，推演出所讨论的对象的进一步的内容.几何学就是一 
个典型的例子. 

成功地将概率论实现公理化的，是现代前苏联大数学家柯尔 
莫哥洛夫，时间在1933年.值得赞赏的不止在于他实现了概率论 
的公理化，还在于他提出的公理为数很少且极为简单，而在这么一 
个基础上建立起了概率论的宏伟大厦. 

在第 1.1.2 段中我们曾指出 ：事件 是与试验相连，试验有许多 
可能的结果，每个结果叫做一个基本事件.与此相应，在柯氏的公 
理体系中引进一个抽象的集合其元素称为基本事件.我们 
又曾指 出：一 t 事件是由若干基本事件构成.如在掷骰子的试验 
中，“掷出素数点”这个事件，由2,3,5这三个基本事件构成.与此 
相应，在柯氏公理体系中考虑由 D 的子集（包括 D 本身及空集 
0 ) 构成的一个集类免，不必包括 D 的一切可能的子集，且必须 
满足某种我们在此不必仔细说明的条件 . 7 中的每个成员就称为 
“事件”.事件有概率，其大小随事件而异，换句话说，概率是事件的 
函数.与此相应，在柯氏公理体系中，引进了一个定义在，上的函 
数对 F 中任一成员 A ， P ( A ) 之值理解为事件 A 的概率.柯氏 
公理体系对这个函数 P 加上了几条要求（即公理） :① 0< P ( A )< 
1对歹任何成员 A ， 这相应于要求概率在 0，1 之间.② P (⑴=1， 
P (0)= O .这相应于说必然事件有概率1，不可能事件有概率 0. 
③加法公理.这一条将在 1.3 节中解释. 

我们举一个简单例子来说明柯氏公理的实现，就是那个“掷骰 
子”的例子.在本例中，集合 D 二丨1，2,3,4,5,61，由6个元素构成， 
反映掷骰子试验的6个基本结果.作为$在本例中包含 D 的一切 
可能的子集，故，一共有64个成员.至于概率函数 P 的定义，则 
要考虑骰子的具体情况，若骰子是均勻的正立方体，则 P 定义为 



P ( A ) - A 中所含点数 /6 

若骰子非均匀，则每面的出现概率 Pi ， …， P 石 可不同.这时，先定 
出上面这6个数，然后对每个 A ，把其中所含点相应的户值加起 
来作为 P ( A ), 例如，若 A =彳2,3,51，则 P ( A ) = p 2 + + - 

由这个例子我们也 看出： 柯氏公理只是介定了概率这个概念 
所必须满足的一些一般性质，它没有也不可能解决在特定场合下 
如何定岀概率的问题.拿后一例子而言，如何以足够的精确度定出 
外，…，/> 6 ,那是要作大量艰苦的工作的，柯氏公理的意义在于它 

为一种普遍而严格的数学化概率理论奠定了基础.例如，刚才讨论 
过的这个例子可用于任何一个只有6个基本结果的试验，而无须 
过问这试验是掷骰子或其他.这就是数学的抽象化.正如我们可说 
1 + 2 = 3,而不必要去讨论一只牛加二只牛等于三只牛之类的东 
西. 


1.2 古典概率计算 

1.2.1 排列组合的几个简单公式 

按公式 （1.1) ，古典概率计算归结为计算两个数 M 和 N . 这种 
计算大多涉及排列组合.二者的区别在于，排列要计较次序而组合 
不 计较： d 和心是不同的排列，但是是相同的组合. 

l . n 个相异物件取 r 个的不同排列总数，为 

Pr — n(n — l)(n — 2) …— r + l ) (2.1) 

因为，从 r 个中取出排列中的第1个，有 n 种取法.在剩下的 
n ~ l 个中取出一个，作为排列中的第2个，有 n -1 种取法…… . 
最后，在剩下的 n-r + 1 个中取出一个作为排列中的第 r 个，有 
w - r + 1种取法.因此不同的取法数目为 n ， n — 1 ，…， n - r + 1 
这 r 个数之积，从而得出公式 (2.1). ' 

例如，从 a ，6， c ， d 这4个文字中取两个作排列，有 4 X 3 = 12 
种： 

ab ， ba ， ac , ca 、 ad ， da ， be , cb , bd , db ,cd,dc. 
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特别，若 n = r ，由 （2. 1 ) 得 

P r r ; = r(r - 1) …1 = r ! (2.2) 

r ! 读为 “ r 阶乘”，是前 r 个自然数之积.人们常约定把0!作为 

1.当 r 不是非负整数时，记号 r ! 没有意义. 

2. n 个相异物件取 r 个 ( l < r < n ) 的不同组合总数，为 

C n r = P n r / r \ = n \/( r\(n - r )!) (2.3) 

因为，每一个包含 r 物件的组合，可以产生 H 个不同的排列.故 
排列数应为组合数的 r ! 倍，由此得出公式 (2.3). C ? 常称为组合 
系数. 

例如，从这4个文字中取2个作组合.有4! / 
(2 ! 2 ! ) = 6种，即 ab ， ac ， ad ， bc ， bd，cd . 

在有些书籍中把记号 c ? 写为 c r „. c ” r 的一个更通用的记号是 

我们今后将用0取代 C ? •当 r = 0时，按0! = 1之约定，由 

(2.3) 算出二1，这可看作一个约定.对组合系数另一常用的 
约 定是: 按公式 


n 


r 


= n(n — l) mm9 (n — r + l )/ r ! 


只要 r 为非负整数， n 不论为任何实数，都有意义.故 w 可不必限 
制为自然数.例如，按上式，有 


- 1 


(— 1)(— 2)--*( — r)/r ! 


l) r 


r 


3. 与二项式展幵的关系 


组合系数 


n 


{r 


又常称为二项式系数，因为它出现在下面熟知 


的二项式展开的公 式中: 


(a + b) n 



(2.4) 


这个公式的证明很 简单： 因为 ， U + 6 广 = U + 6 Ha + 6 )-(a + 
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6) .为了产生这一项，在这 77 个 U 中，要从其中的《个 


取出 a , 另 n _ i 个取出6.从 rz 个中取出 i 个的不同取法为 

这也就是这一项的系数. 

利用关系 (2.4) 可得出许多有用的组合公式，例如，在 (2.4) 中 
令 a = 6 = 1，得 


n 

0 





令 a = - 1，6 = 1，则得 



另一个有用的公式是 






(2.5) 


它是由恒等式 (1+ x ) 


(1 + x 产 （1 + x) n 即 


S 


m 


n 


x 7 


m 


MS (” W 


o 


0 \J 


0 


比较两边的 2 项的系数得到的. 

4. n 个相异物件 分成力 堆，各堆物件数分别为 n ，…， r k 的分 

法是 


n \/{ r x ! "* ! ) (2.6) 

此处 n ，…，都是非负整数，其和为 ^又这 里要计较堆的次序. 
就是说，若有5个物体 a ，6， c ， d ， e 分成3堆，则 Ue )，（ d )，（ fc ) 
和（心），（^)，（3)是算作两种不同分法. 

证明很简单 :先从 n 个中取出 ri 个作为第1堆，取法有 j 

种.在余下的 w - ri 个中取出 r 2 个作为第2堆，取法有 
种，以此类推，得到全部不同的分法为 
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利用公式 (2.3) 并注意 n-n - r ,-, = r ,, 即得 (2.6) 

(2.6) 常称为多项式系数，因为它是 ( x ! 十…+ XkT 的展开式 
中，… xp 这一项的系数 • 

1.2.2 古典概率计算举例 


例 2.1 —^批产品共 N 个，其中废品有 M 个.现从中随机 

(或说随意）取出 n 个，问“其中恰好 m 个废品”这个事件£：的概 
率是多少？ 

按 1.2.1 所述，从 iV 个产品中取出77个，不同的取法有 
N ) 种.所谓“随机”或“随意”取，是指这 f N ) 种取法有等可能 

\ n ) \n j 

性.这是古典概率定义可以使用的前提.所以，从实际的角度言，问 
题在于怎样保证抽取的方法能满足等可能性这个要求.以下各例 
中“随机”一词也都是作这种理解. 

使事件£发生的取法，或者说“有利”于事件£的取法，计算 


如 下:从 M 个废品中取 m 个，取法有 


M 


种.从其余 N - M 个合 


格品中取 n - m 个，取法有种.故有利于事件£：的取 

\n — m I 

( M \ (N - M \ 

法，共有 种.按公式 （1.1)， 得事件 £： 的概率为 

\m \n — m / 


P ( E )= 


M 


M 


(2.7) 


这里要求否则概率为 0( 因 E 为不可能 
事件）. 

例 2.2 n 双相异的鞋共 2 tz 只，随机地分成72堆，每堆2只. 
问“各堆都自成一双鞋”这个事件 E 的概率是多少？ 

把只鞋分成/ I 堆每堆2只的分法，按公式（2.6)，有 iV 二 
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(2n)\ A ” 种.有利于事件 E 的分法可计算 如下： 把每双鞋各自 
绑在一起看成一个物体，然后把这相 异的〃 个物体分成 n 堆，每 
堆1件.按公式 (2. 6)，分法有 M 二77!种.于是 

P(E) = M/N - n\2 n /(2n) \ - \/(2?i - 1)!! 
a !! 这个记号对奇自然数 定义： 《!!二1_3*5…^，即所有不超过 
a 的奇数之积. 

另一种算法如下 ：把这 2/ z 只鞋自左至右排成一列（排法有 
(2^)! 种），然后，把处在1，2位置的作为一堆，3,4位置的作为一 
堆，等等.为计算使事件£：发生的排列法，注意第〗位置可以是这 
2 n 只鞋中的任一只，其取法有277种.第1位置取定后，第2位置 
只有一种取法，即必须取与第1位置的鞋配成一双的那一只.依此 
类推，知奇数位置依次有 2 m ，2 ti _2,2 n - 4,…，2种取法，而偶数 
位置则都只有1种取法.所以，有利于事件 E 的排列总数为 

( 2 w ~ 2)***2 = 2 n n !, M 

P(E) = 2 n nl/(2n)\ 

与前面用另外的方法算出的相同. 

例 2.3 77个男孩， m 个女孩+ 1) 随机地排成一列. 

问“任意两个女孩都不相邻”这个事件£的概率是什么？ 

w 把 n + m 个孩子随意排列，总 

共有 N = (n + m)l 种不同的排 
2 法.有利于事件£发生的排法可计 

' 算如下 ：先把 / Z 个男孩子随意排成 

一列，总共有 72 ! 种方法.排定以后，每两个相邻男孩之间有一位 
置，共有 n -1 个； 加上头尾两个位置，共72 + 1个位置（图 1.2 画 
出了 72 =3的情况，“ X ”表示男孩，4个表示刚才所指出的77 + 
1二4个位置）.为了使两个女孩都不相邻，必须从这 „ +1个位置 

中取出 m 个放女孩，取法有 f 72 1 j 种.取定位置后， m 个女孩 

子尚可在这 m 个取定位置上随意排列，方法有 w ! 种.由此推出， 
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/ 71 十 1 \ 

有利于事件£发生的排列数为 M 二 H ! )m !，因此， 

\ m / 

/ 、 / ?? + 1 \ , 、， ( n + \ \ I i n + m\ 

P(E) — ! ( Jm 1/( ?7 m )l = / ( 

\ m / \ 7?i r \ m I 

如果这 n + m 个孩子不是排成一直线而是排在一圆圈上，则 
同一事件£：的概率是多少？初一看以为无所区别，其实不然.看 
图 1. 2,若以“ X ”和 “ c ” 分别表男、女孩，则在一直线上首尾两女孩 
并不相邻.但若把这直线弯成一个圆圈，则首尾两女孩成为相邻 
了，因此算法略有不同.我们留给读者去 证明： 答案为 


I n \ 11 n + m ~ 1 \ 

U 1 m / 

例 2.4 —个人在口袋里放2盒火柴，每盒 n 支.每次抽烟时 
从口袋中随机拿出一盒（即每次每盒有同等机会被拿出）并用掉一 
支.到某次他迟早会 发现： 取出的那一盒已空了 .问： “这时另一盒 
中恰好有 m 支火柴”的概率是多少？ 

解法1 我们来考察最初+ 1 - w 次抽用的情况，每次抽 
用时有2种方法（抽出甲盒或乙盒）.故总的不同抽法，有 2 Zn + l ~ m 
种.有利于所述事件的抽法可计算如 下：先 看“最后一次（即第2^ 
+ 次）是抽出甲盒”的情况.为使所述事件发生，在前- 

w 次中，必 须有〃 次抽用甲盒，实现这一点不同的抽法为 



n — m 
n 


类似地，“最后一次是抽出乙盒”的抽法也有这么多， 


2 72 — 711 

故有利于所述事件的全部抽法为 2( 1，而事件的概率为 


n 


2 





2n + \- }n 



( 2 . 8 ) 


解法2 因每盒中只有 n 支，最晚到第2；2 +1次抽取时，或 
在此之前，必发现抽出的盒子已空，故我们不管结果如何，总把试 
验做到抽完第2^ + 1次为止，不同的抽法有 2 2k + 1 种. 

现在计算有利于所述事件的抽法.仍如前，先考虑“先发现甲 
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盒为空”的抽法有多少.这必然是对某个 r ， r = 0,1 ， …，7? - m ，以 
下情况同时出现： 

1°第〃十 r 次抽取时抽出甲盒，而这时甲盒已是第〃次被 
抽岀； 

2°前《 + r - 1次抽取时，乙盒被抽出 r 次（这不同的抽法 


有 


n + r 
r 


一 1 


种）； 


3°紧接着的 H - m - r 次全是抽出 乙盒； 

4°第 2 m - m +1次抽取时抽出甲盒（这时发现它已空，且乙 


盒恰有 m 支）; 


5 C 最后 m 次抽取结果可以任意(这不同的抽法有种）. 


综合上述，对固定的 r ， 抽法有^ — 1 + ^2™ 种.因此，“有 
利于事件发生，且先发现甲盒为空”的抽法，有 



种.类似地，“有利于事件发生，且先发现乙盒为空”的抽法，也有 a 
种，故总数为 2 a ，概率为 


2a /2 


2 ^ + 1 _ 



(2.9) 


两种方法算出的结果，只能有一个.故比较 （2.8) 和 （2. 9)，我 
们得到一个组合恒等式 


n~ m 

s 

r-0 




m 


当然，你也可以怀疑，这两个解法中有一个不对，因而上式也可能 
错了.但此式可另行证明.为方便计，将式中的 m 改为 n - m ， 而 
将该式写为 



而因式易用数学归纳法证 明：当 777 = 0,1 时，直接计算可知其成 
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立，然后用易证之等式 



去完成归纳证明. 

这个例子给人的启发是•.适当的考虑得出的简洁解法.第二种 
解法，把试验做到必然能见分晓的地步，较为自然易懂，但结果则 
繁 复：要 不是有 (2.8) 对照，我们可能停留在 （2. 9)，而得出不理想 
的形式.前一解法抓住了这一点 ：要使 所设事件发生，抽取必然是 
2 n + \ ~ m 次.这一简单的观察导致了远为简洁的解 (2.8). 

例 2.5 有21本不同的书，随机地分给17个人.问“有6人 
得0本，5人得1本，2人得2本，4人得3本”这个事件 E 的概率 
是多少？ 

因为每本书都有17种可能的分法，故总的不同分法，有17 21 
种.为计算有利于事件£：的分法，得分两步分 析：① 按得书本数不 
同把17人分成4堆，各堆分别含 6(0 本）、 5(1 本）、 2(2 本）、 4(3 
本)人.这不同的分法按公式 （2.6), 有17! /(6! 5! 2! 4!) 种.② 
把21本书按17人得书数情况分为17堆，各堆数目依次为 

0,0,0,0,0,0,1,1,1,1,1,2,2,3,3,3,3 

不同分法有 

21!/(0! 6 1! 5 2! 2 3! 4 ) - 21!/(2! 2 3! 4 ) 

二者相乘，得出有利于事件 E 的分法总数，进而得出 E 的概率为 

17! 21!/(17 21 2! 3 3! 4 4! 5! 6!) 

以上举的例子都有一定的代表性.古典概率计算实质上就是 
排列组合计算.但在分析问题时，怎样去选定一个适当的实现随机 
化的机制（如例2.4,例2.5)，怎样去正确计算公式 （1.1) 中的 M ， 
N ， 以保证既不重算也不漏算，则需要细心.尤 其是: 你所设想的机 
制是否真的实现了等可能性？有时表面上看想当然对，其实是似 
是而非的.如例 2.3 中，圆圈的情况和直线有所不同——在直线上 
正确地体现了等可能的做法，在圆圈上却没有.再看下例. 

例2.6、 w 本书随机给分甲、乙二人，问“甲、乙各至少得到 1 
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本”这事件 E 的概率是多少？ 

n 本书随机地分给2人，甲得的本数无非是0，1，…，〃，一共 
有77 + 1种可能性，其中0和7?两种是“全归一人”，剩下 7 Z -1 种 
有利于 £，故 P (£) = (n - 1)/(72 +1). 

这个解法是否对？不对.问题在于:0，1，…， / Z 这 n + 1 种结果 
不具有等可能性.凭常识可以推想:若〃较大，则甲得 n /2 本左右 
的机会，应比他全得或全不得的机会大一些.正确的解法 如下 ： n 
本书分给2人，不同的分法有 2" 种.其中仅有两种是使事件£:不 
发生的，故 P ( E ) 应为 (2 n -2)/2 w = l - l /2 n — L 

1.3 事件的运算、条件概率与独立性 

在实用上和理论上，下述情况常见 ：问题 中有许多比较简单的 
事件，其概率易于算出或是有了理论上的假定值，或是根据以往的 
经验已对其值作了充分精确的估计.而我们感兴趣的是一个复杂 
的事件£，它通过种种关系与上述简单事件联系起来.这时我们 
想设法利用这种联系，以便利用这些简单事件的概率去算出£的 
概率.正如在微积分中，直接利用定义可算出若干简单函数的导 
数，但利用导数所满足的法则，可据此算出很复杂的函数的导数. 

例如，向一架飞机射击，事件 E 是“击落这架飞机”.设这架飞 
机有一名驾驶员，两个发动机 Gi 和 G 2 .又假定当击中驾驶员，或 
同时击中两个发动机时，飞机才被击落，记事件 

E 0 二 击中驾驶员， E , 二击中 G ，〖二1，2 

则£ 与 Eo ’ EyEz 有关，确切地说，£：即由决定.其关 
系可通过文字表达如下： 

E - |£： 0 发生或都发生 | 

这种表述很累赘，我们希望通过一些符号来表达，这就是本节要讨 
论的事件的关系和运算.对事件进行运算，如同对数字作运算一 

样： 对数字进行运算得出新的数，而对事件作运算则得出新的事 
件. 


• 18 • 




1.3.1 事件的蕴含、包含及相等 

在同一试验下的两事件 A 和 B ， 如果当 A 发生时 B 必发生， 
则称 A 蕴含 B ， 或者说 B 包含 A ，记为 ACB . 若互相蕴含， 
即 A 匚 B 且 B 匚 A ， 则称 A ， B 两事件相等，记为 A = jB . 

例如，掷两粒骰子.记 

A = i 掷出的点数之和大于101 
B =丨至少有一粒骰子掷出61 

若事件 A 发生，易见 B 非发生不可，故 A 蕴含—个形象的看 
法如图 1.3. 向一个方形靶面射击，以 
A ， S 分别记“命中图中所标出的闭曲线 
内部”的事件，则命中 A 自意味着命中 
B .这个图形也说明了包含 A ” 这个 
说法的来由.因从图中明白看出， B 这 
一块包含了 A 这一块. 

拿“事件是试验的一些结果”（见 
1.1. 2 段）这个观点去看，如果 A 蕴含 
B ， 那只 能是： A 中的试验结果必在 B 
中，即 S 这个集合（作为试验结果的集 
合)要大一些，“包含”一词即由此而来，实际含义 是：若 (也 
写为 B 3 A )， 则 A 和 S 相比，更难发生一些，因而其概率就必然 
小于或至多等于 S 的概率.“两事件 A ， B 相等”无非是说， A，B 
由完全同一的一些试验结果构成，它不过是同一件事表面上看来 
不同的两个说法而已. 

例如，掷两个骰子，以 A 记事件“两骰子掷出点数奇偶不同”， 
B 记事件“掷出点数之和为奇数”.这两个事件，说法不同，其实则 
一 •对复杂情况则不必如此一目了然.证明两事件 A , B 相等的一 
般方法 是：先 设事件 A 发生，由此推出 B 发生，再反过来，由假定 
B 发生推出 A 发生.这将在后面举例说明. 
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1.3.2 事件的互斥和对立 


若两事件 A ， B 不能在同一次试验中都发生（但可以都不发 
生），则称它们是互斥的.如果一些事件中任意两个都互斥，则称这 
些事件是两两互斥的，或简称互斥的. 

例如，考虑投掷一个骰子这个试验.记&为事件“掷出的点数 
为/的倍数”口 =2,3,4,则£ 3 与尺 4 为互斥，因若 E 4 发生，则只 
有掷出4点，而它非3的倍数， SI 3 £ 3 必不发生.但是， E 2 和 E 3 并 
非互斥.因若掷出6点，则二者同时发生.简言之，互斥事件即不两 
立之事件.从“事件是由一些试验结果所构成的”这个观点看，互斥 
事件无非是 说:构 成这两个事件各自的试验结果中不能有公共的. 
互斥事件的一个重要情况是“对立事件”，若 A 为一事件，则 

事件 

B = | A 不发生1 

称为 A 的对立事件，多记为 A (读作 A 6 ar ， 也记为 A 0. 

例如，投掷一个骰子，事件 A = i 掷出奇数点丨=丨1，3,5丨的对 
立事件是 B = | 掷出偶数点丨=|2,4,61.对立事件也常称为“补事 
件”.拿上例来说，事件 A 包含了三个试验结果 ：1，3 和5,而对立 
事件 B 中所含的三个试验结果2,4和6,正好补足了前面三个，以 
得到全部试验结果. 

1.3.3 事件的和(或称并） 

设有两事件 A ， S ， 定义一个新事件 C 如下： 

C = | A 发生，或 B 发生丨= \ A , B 至少发生一个1 
所谓定义一个事件，就是指出它何时发生，何时不发生.现在这个 
事件 C 在何时发生呢？只要 A 发生，或者 B 发生（或二者同时发 
生也可以），就算是 C 发生了，不然（即 A ， B 都不发生）则算作 C 
不发生，这样定义的事件 C 称为事件 A 与事件 B 的和，记为 

C = A 十 B 

例如，掷一个骰子，以 A 记事件 j 掷出偶数点丨= |2,4,6 l，B 
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记事件丨掷出 3 的倍数丨=丨3,6丨，则 C 
= A + |2,3,4,6}，即当掷岀的点为 
2,3,4或6时，事件 C 发生，而掷出1，5 
时则不发生.我们注意到，两事件的和， 

即把构成各事件的那些试验结果并 A 在 
一起所构成的事件.如把图〗 .4 的正方 
形视为一个平面靶， A ， B 两事件分別表 
示命中图中所指闭曲线内部，则 C = 

A + B 表示“命中由 A ， B 两闭曲线的外 图 I . 4 

缘所围成的区域”.这区域比都 

大，它由 A , B 两部分合并而成.当然，作为集合，重复的部分（图 
中斜线标出的部分）只须计入一'次. 

这样，若 C = A + B , 则 A f B 都蕴含 C ， C 包含 A 也包含 
经过相加，事件变“大”了（含有更多的试验结果），因而更容易发生 
了. 

事件的和很自然地推广到多个事件的情形.设有若干个事件 
…，.它们的和 A , 定义为事件 

A = iAi 发生，或 A 2 发生，…，或发生1 
二 | A 1 , A 2 ,»-, A „ 至少发生一个 t 

且记为 A t + A 2 + — + A „ 或也常记为本书不用这 

-1 J "" 1 

个记号） . A 是由把 Ai ，…， A „ 所包含的全部试验结果并在一起所 
得.和的定义显然地推广到无限个事件的情形. 

在此要不厌其烦地重复一点.有的初学者对事件的运算感到 
不易理解.比如，定义事件 A 之和为（：= | A ， B 至少发生其 
一 1.他们 问：既 然已说 A ， B 至少要发生一个，那岂不是对 A，B 

* 由 f 这个原因，事件的和也常称为事件的并，和 A + B 也常被记为 A UB . “ U ” 
这个记号有“合并”的含义，由于称呼和书写上的方便，本书中我们一直用“和”与” 
的说法，也有些著作在当互斥时才把 AUB 写成 A 十£1，本书不采用这个做法. 
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作了限制？不然，我们不要忘记 1.1 节中所说的“事件不是指已发 
生了的情况，而是某种情况的陈述”.定义 c 为 “ A ， s 至少发生其 
一” ，当然不是说 A ， B 已经或必然发生一个，而是在试验时，若 
至少发生了一个，则算作 C 发生了.在任一次特定的试验 
中，当然可能 A ， B 都不发生，这时 C 也就不发生.理解了这一点 
就好办，望读者多加留意. 

1.3.4 概率的加法定理 

定理 3.1 若干个互斥事件之和的概率，等于各事件的概率 
之和： 

P(A^ + A 2 十…）二 P(Ai) + P(A 2 ) + … （ 3.1) 

事件个数可以是有限的或无限的，这定理就称为（概率的）加法定 
理，其重要条件是各事件必须为两两互斥. 

在概率的古典定义和统计定义之下， （3.1) 很容易证明.拿古 
典定义来说，设试验一共有 iV 个等可能的结果，而有利于事件 
/^，义]，…发生的结果数分别为，…，则由于互斥性，有利 

于事件 A = A ! + A 2 十…发生的结果数，应为 + + 

于是 

P ( A ) = ( M x + M 2 + …） /iV = M x /N -h M 2 /N + … 
- P ( Ax ) + P ( A 2 ) + *•* 

对统计定义也完全类似地处理. 

在概率论书籍中，加法定理往往被称为加法公理，8卩（3.1)是 
不加证明而被接受的事实.这条公理就是我们在 1.1.5 段中提到 
而未加说明的，柯氏公理体系中的第3条. 

读者可能会问 ：既然 在古典定义、统计定义这样在实用上重要 
的概率定义之下， （3.1) 是可以证明的，那么为什么要把它看作一 
条公理？问题在 于：你 可以想像而且也确实可以建立一种概率理 
论，其中 （3.1) 不成立■柯氏公理的意思是说 ：我只 考虑那种满足 
(3.1) 的概率理论，而不及其他•正如在几何学中，你可以把“过不 
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在直线 / 上的任一点只有一条与/平行的直线”作为公理，由之建 
立一套欧氏几何学，也可以废弃这条公理而建立非欧几何学，二者 
都符合形式逻辑.古典和统计定义之适合(3.1)，不过是说明 了：它 
们是柯氏公理体系中的东西. 

加法定理 (3.1) 的一个重要推论 如下： 

系 3.1 以亓表 A 的对立事件，则 

P ( A ) - 1 - P ( A ) (3.2) 

证明很容易.以记必然事件，则按对立事件的定义有 A + 
A = n 且 A 和 A 互斥.因尸（/2) = 1.用（3.1)得1 =尸（]1)=尸(必 
+又）=户(八）+戶(又），即(3.2). 

这个简单公式在概率计算上有用.因为，有时计算 p ( A) 不 
易，而 P ( K ) 则易处理些. 

1.3.5 事件的积(或称交）、事件的差 

设有两事件 A ， B ，则如下定义的事件 C 

C 二 | A ， B 都发生 i 

称为两事件 A 9 B 之积或乘积，并记为 AB . 拿图1 .4 的例子来说， 
若分别以表示“命中图中相应区域”的事件，则就是事 
件“命中图中斜线部分”.又如骰子试验，分别以 A ， S 记“掷出偶 
数点”和“掷出素数点”之事件，则 AB 就是事件“掷出2点”.一般， 
事件 Aj 各是一些试验结果的集合，而 AB 则由同属于这两个 
集合的那些试验结果组成，即这两个集合的交叉_按积的定义，两 
个事件互斥，等于说 AB 是不可能事件. 

多个事件乂^/^，…（有限或无限个都可以）的积的定义类 

似 •• A = …，/^，…都发生匕记为义二（事件 

i - 1 

oo 

个数有限)或 J \ A ： (事件个数无限）. 

i = I 

* 由于这个原因，事件的积也常称为事件的交，积 AB 也常记为八门_6.“门”这个 
记号有取交的含义.为书写方便 ，本书 一直用 AB 这个记号. 


• 23 • 



两个事件 A ， B 之差，记为 A - £!，定义为 

A - B = | A 发生， B 不发生 i 

例如，则才提到的掷骰子试验中的两个事件 A 和|4, 
6|.在图 1.4 中， A 就是“命中图中用点标出的区域”这个事 
件 .一 般地， A-B 就是从构成 A 的那些试验结果中，去掉在 B 内 
的那一些.很明显 


A - B = AB (3.3) 

其中百是 B 的对立事件.因为，无非是说， A， 百都发生，即 A 
发生 B 不发生.这样，差可以通过积去定义. 

我们对事件引进了和差积等运算，借用了算术中的名词.但应 
注意，算术的法则不一定能用于事件运算.有些规则是成立的，例 
如，和 A + B 及积 AB 与次序 无关： A + B = B +A，AB = BA， 这 
由定义直接看出.乘法结合律也成立 ：（AB)C = A(BC)( 它们都 
等于 ABC). 分配律也对， 例如： 

A(B - C) = AB - AC (3.4) 

证明如 下:设 在左边的事件发生，则按积的定义，事件 A 和 B-C 
都发生•按差的定义，发生， C 不发生.因此， A，B 同时发生而 
A，C 不同时发生，故 AB 发生而 AC 不发生.按差的定义，即知 
AB-AC 发生.反过来，若右边的事件发生，则 AB 发生而 AC 不 
发生.由前者知 A，B 都发生，由 A 发生及 AC 不发生，知 C 不发 

生，故 B - C 发生.因 A 和 B - C 都发生知 A(B - C) 发生，这证 
明了 (3_4). 

这就是我们在本节 1.3.1 段末尾处指出的证明事件相等的一 
般方法之一实例•读者必须了解，像 (3.3) ，（3.4)这类的等式，不过 
是反映了一种逻辑关系，因而必须用上述逻辑思维的方式去验证. 
有些关系，看来不习惯，但逻辑上很简单.例如， A + A = A 而非 
2 A ( 2 A 无意义）， AA = A 而非 A 2 (A 2 无意义），由 A -3 = 0( 不 
可能事件），推不出 A =召，而只能推出 ACIB. 又如， （A + B 
并不是 A 而是 A+S (请读者自证），等等. 
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1.3.6 条件概率 

一般讲，条件概率就是在附加一定的条件之下所计算的概率. 
从广义的意义上说，任何概率都是条件概率，因为，我们是在一定 
的试验之下去考虑事件的概率的，而试验即规定有条件.在概率论 
中，规定试验的那些基础条件被看作是已定不变的.如果不再加入 
其他条件或假定，则算岀的概率就叫做“无条件概率”，就是通常所 
说的概率.当说到“条件概率”时，总是指另外附加的条件，其形式 
可归气为“已知某事件发生了”. 

例如，考虑掷一个骰子的实验.这里，骰子必须为均匀的正立 
方体，拋掷要有足够的高度等要求，是这试验的固有规定，不作为 
附加条件.考虑三个 事件 : A :“掷岀素数点”， B : “掷出奇数点”， C : 
“掷出偶数点”，有 

A = |2,3,5(,B - {l,3,5i,C = {2,4,6[ (3.5) 

于是算出 A 的（无条件）概率为 3/6 = 1/2 .现若 附加上“已知 B 发 
生”，则可能情况只有三种 ： 1 ， 3,5, 其中两种有利于 A 发生，故在 
这条件下， A 的条件概率，记为 P(A | B )， 等于 2/3. 同样，在给定 
事件 C 发生的条件下， A 的条件概率为 P(A | C) = 1/3. 

让我们在古典概率的模式下来分析一般的情况.设一试验有 
N 个等可能结果，事件 A ， B 分别包含其 M ! 和 M 2 个结果，它们 
有 M 12 个是公共的，这就是事件 AB 所包含的试验结果数.若已给 
B 发生，则我们的考虑由起先的 iV 个可能结果局限到现在的 M 2 
个，其中只有 M 12 个试验结果使事件 A 发生，故一个合理的条件 
概率定义，应把 P(A |S) 取为 M 12 /M 2 .但 

M 12 /M 2 = (Mi 2 /N)/(M 2 /N) - P (AB )/P(B) 

由此得出如下的一般 定义： 

定义 3.1 设有两事件 A，B 而声0.贝！在给定 B 发生 
的条件下 A 的条件概率”，记为 P ( A | B )， 定义为 

P(A \B) - P(AB)/P(B) (3.6) 

当 P ( B ) = 0 时， （3.6) 无意义•在高等概率论中，也要考虑 
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P ( A | B ) 当 P ( B ) = 0 时的定义问题，那要牵涉到高深的数学，超 
出本书范围之外.在后面我们也会和个别这种情况打交道，那可以 
用极限的方法去处理. 

(3.6) 是条件概率的一般定义，但在计算条件概率时，并不一 
定要有它.有时，直接从加入条件后改变了的情况去算，更为方便. 
举一个例子. 

例 3.1 掷三个均匀骰子.已知第一粒骰子掷出么点（事件 
B ). 问：“ 掷出点数之和不小于10”这个事件 A 的条件概率是多 
少？ 

既然第一粒骰子已坐定了 1，则在这一条件下，为使事件 A 
发生，第二、三粒骰子掷出点数之和不能小于 9 .这一情况有 10 
种，即 36,63,45,54,46,64,55,56,65,66. 这里 “36” 表示第二、三 
粒骰子分別掷出 3 和 6, 余类推，这样，得出 P(A|B)-10/36-5 / 
18. 


此题若直接用公式 （3.6) 计算，则比上述解法复杂些，读者可 
一试以证明结果一致. 

1.3.7 事件的独立性，概率乘法定理 

设有两事件 A , B . A 的无条件概率 P ( A ) 与其在给定£!发生 
之下的条件概率 P(A | B ), —般是有差异的.这反映了这两事件 
之间存在着一些关联.例如，若尸(焱|朽）>尸（/\)，则 B 的发生使 
A 发生的可能性增 大了： B 促进了 A 的发生. 

反之，若 F ( A ) 二 P ( A | B )， 则 B 的发生与否对 A 发生的可 
能性毫无影响'这时在概率论上就称 A , B 两事件独立，而由 
(3.6) 得出 


* 这样说应补充：由 = 推出的对立事件. 

事实上，由户(/0二户(八|石）及（3.6)知 P ( AB )^ P ( A ) P ( B ). 因 + 

仙 ， A B 互斥，知 P ( AB ) = P ( A ) ~ P ( AB )^ P ( A )- P { A ) P ( B )^ P { B )) 
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P ( AB ) = F ( A ) P ( B ) (3.7) 

拿此式来刻画独立性，比用尸 ( A ) = P ( A 丨 B ) 更好，因 （3.7) 不受 


P ( S ) 是否为0的制约（当尸(召）为0时(3.7)必成立）.因此，我们 


取如下的定义： 

定义 3.2 两事件 A ， B 若满足(3.7)，则称 A 独立. 

定理 3.2 两独立事件的积 AB 之概率 P ( AB ) 等于其 
各自概率之积 P ( A ) P ( B ). 

这个定理就是 (3.7) 式，它称为“概率的乘法定理”.其实，它就 
是独立性的定义，我们之所以又将它重复列出并标为一个定理，就 
是因为这个事实极其重要. 

在实际问题中，我们并不常用 （3.7) 式去判断两事件 A ， B 是 
否独立，而是相反 :从事 件的实际角度去分析判断其不应有关联因 
而是独立的，然后就可以用 （3.7) .例如，两个工人分别在两台机床 
上进行生产，彼此各不相干，则各自是否生产出废品或多少废品这 
类事件应是独立的.一城市中两个相距较远的地段是否出交通事 
故，一个人的收人与其姓氏笔划，这类事凭常识推想，认定为独立 
的 • 

由此可知，两事件有独立性多半是在下述情况之下产生 的:有 
两个试验和£： 2 ,其试验结果（各有许多）分别记之以 q 和以， 
考虑一个“大”试验 E , 它由 E u E 2 两部分构成（故£常称为复合 
试验乂可记为^:二化^五丄其结果可记为^^乂在试验五的 
一 个事件，即是牵涉到 （ ei ， e 2 ) 的某一个陈述(见 
A 2 是两个事件， Ai 只牵涉 q 而 A 2 只牵涉则当两试验结果 

如果彼此不影响时，会有独立性.可以举一个具体例子，设 
试验 A 为掷一个均勻骰子，其试验结果 q 有6个：1，2，...，6.试 
验£ 2 为掷一个硬币，其结果有两个 ：“正 ”和“反”.定义两事件 

At , A2 : 


Ai - i 掷出1点丨， A 2 i 掷出正面1 

这两个事件可看成同一试验£:下的两个事件，，它包 
含12个可能 结果： 
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( 1，正）， （1， 反）， （2, 正）， （2, 反），…， （6, 正）， （6, 反） 

事件 A 1包含两个可能结杲，即丨 （ 1，正 ） ， （ 1，反） 丨 ，而则包含6 
个可能 结果： 丨（1，正），（2,正），…，（6,正）丨.通过这种方式，我们把 
两个看来不相干的事件 A , 和 A 2 统一在一个试验 E 之下，而其 
独立性就好理解了——即掷骰子和掷硬币彼此不影响而已.这种 
把若干个不相干的试验统一起来的做法，看起来好像纯粹是--种 
形式，但在理论上有其方便. 

如果试验的内容真是单一的，那么，在这种试验下两事件独立 
是较少出现的例外.因为，两个事件既然都依赖同一批结果，彼此 
谅必会有影响.掷两个均匀骰子，以 A 记“点数和为的倍数”， 
2'二2,3,5.通过用（3.7)验证可知，焱 2 与4 3 独立,但这非一般性 
质，比如， A 2 与 A 5 就不独立.对这种“单一”性试验， （3.7) 作为验 
证独立性的工具，还是有用的.有时，未经周到考虑的直观也可能 
引人歧途. 

例 3.2 再考虑例3，1，记 j 至少有一个骰子掷出1丨，而 
把事件 A 定义为 A =丨三个骰子掷出的点数中至少有两个一样 
(即不全相异）丨，问 A ， B 是否独立？ 

初一看使人的倾向于相信独立，理由如下 ：知道 B 发 
生，即知道掷出的点中有1，对 A 而言，似与知道掷出的点中有2 
(或3,4,5,6都可以）一样.故1这个数并不相对地更有利于或更 
不利于 A 发生.经过计算发现不然： A 并不独立.这一点看来 
有些难理解，但是，如按下述分析，则可以信 服：考 虑互.若 B 发 
生，则三个骰子都不出么.这样，它们都只有5种可能性(2,3,4,5, 
6), 比不知 B 发生时可能取的点数1,2,3,4,5,6少了一个，在5个 
数中拿3个（每个可重复拿），其有两个一样的可能性，自应比在6 
个数中拿3个0£，有两个一样的可能性要大些.这个分析指出应有 

| E ), 由此推出 P ( A )> P ( A | B )( 见习题 15), A,B 

不独立. 

多个事件独立性的定义，就是两个事件情况的直接推广. 

定义 3.3 设八 1 ,乂 2 ，…为有限或无限个事件.如果从其中任 
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意取出有限个 A .， A ; ，…， A , 都 成立. 

1 2 m 

P(Ai A { … A ，）= P ( A t ) P ( A t )- m P(Ai ) (3.8) 

1 2 m \ 2 m 

则称事件 Ai ， A 2 ，…相互独立或简称独立. 

这个定义与由条件概率出发的定义是等价的，后者是说 :对任 
何互不相同的 “， i 2 , …， i m ，有 

P ( A 2 | A , ) - P ( A 2 ) (3.9) 

12 m 1 

即任意事件 A , i 发生的可能性大小，不受其他事件发生的影响.这 
更接近于独立性的原义.但是， （3.9) 的左边依赖于 P ( A i 2 - A lf ) 

>0,否则无意义，而 (3.8) 就没有这个问题.另外，定理 3.2 后面 k 
的那段话当然也适用于多个事件的情 形：多 个事件的独立性往往 
产生于由多个试验构成的复合试验中，每个事件只与其中一个试 
验有关. 

由独立性定义立即得出下面的概率乘法 定理： 

定理 3.3 若干个独立事件 Ai ，…，之积的概率，等于各 
事件概率的 乘积： 

- P ( Ai )-" F ( A „) (3.10) 

乘法定理的作用与加法定理一样 :把复 杂事件的概率的计算 
归结为更简单的事件概率的计算，这当然要有 条件： 相加是互斥， 
相乘是独立. 

由独立性定义可得到下面两条重要推论. 

系 3.2 独立事件的任一部分也独立.例如， A ， B ， C ， D 四事 
件相互独立，则 A ， C ，或 A ， B ， D 等，都是独立的. 

这一点由独立性定义直接推出.更进一步可推 广为： 由独立事 
件决定的事件也独立.举例来说，若事件 ，…， A 6 相互独立，则 
以下三事件 

二 + ^2 >^2 ~ ^3 ~ A4 > A3 — A ^ A(j (3.11) 

也独立.这在直观上很显然，但证明起来很麻烦，因为可以产生的 

事件很多.在下一章中我们将指出另外的考虑方法（见第二章例 
3.7). 
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如果把 b 3 改为山 A 5 A 6 ，则 B 2 ， B 3 , 就不一定独立了.理由 
也很明显:二者都与有关，因而彼此也就有了关系. 

系 3.3 若一列事件山，4 2 ,…相互独立，则将其中任一部分 
改为对立事件时，所得事件列仍为相互独立. 

例如，若 AbAhAs 相互独立，则 不， A 2 ， A 3 , 或不，/\ 2 ，不， 

或又等，都是互相独立的. 

这一点从直观上也很显然，且对两个事件的情况，已在27页 
的足注中作过证明.让我们再看一个三个事件的例子.比如，要证 
A !， A 2 , A 3 独立，要对其验证（3.8)，其中有 P ( A x A 2 A 3 ) = 

尸(不)尸04 2 )尸(不）,为此注意 

A2A3 二 /V j A 2 ^3 +八1八2八3 

且右边两事件互斥，故 

P ( AiA2 A3 ) = P(Ai A3 ) — P ( AjA2 A3 ) 

- P ( A 2 ) F ( A 3 ) - P ( A ! A 2 A 3 ) (3.12) 

再利用 J Ai J A2 = J Al J A 2* / ^3 + ^-1^2 A3 , 得 

P(A\A2 A 3 ) = P(AiAi) ~ P(A\A2A^) 

^ P ( A t ) P ( A 2 ) - P ( A } ) P ( A 2 ) P ( A 3 ) 
- P ( A 1 ) P ( A 2 )(1 - P ( A 3 )) 

= P ( A l ) P ( A 2 ) P ( A 3 ) 

以此代入 (3.12)， 得 

P ( A 1 A 2 A 3 ) = P ( A 2 ) P ( A z ) - P ( A i ) P ( A 2 ) P(AO 

=(1 - P ( A 1 )) P ( A 2 ) P ( A 3 ) 
- P ( A 1 ) P ( A 2 ) P ( A 3 ) 

明所欲证.可以 看出： 当涉及众多的事件时，这么处理会很冗长，但 
并无任何实质困难（可使用数学归纳法，对所含对立事件个数进行 
归纳）. 

除了相互独立之外，还有所谓“两两独立”的概念.一些事件 
，… ，如果其中任意两个都独立，则称它们两两独立.由相互 
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独立必推出两两独立，反过来不一定对.从数学上，这无非是 说：由 
(3.8) 对 m =2及任何成立，不必能推出该式当 w >2 时 
也成立.下面是一个简单的 例子： 

例 3.3 有四个大小质地一样的球，分别在其上写上数字1， 
2,3和“1，2,3”，即第4个球上1，2,3这三个数字都有.引进三个 
事件： 

A , =丨随机抽出一球，球上有数字 i\,i - 1,2,3 
所谓随机抽出一球，即每球被抽出的概率都是 1/4. 易见 P ( A t ) = 
P ( A 2 ) = P ( A 3 ) = l /2. 因为，为使事件 A 发生，必须抽出第一球 
或第四球，有2种可能.又 P ( A 1 A 2 ) = P ( A 1 A 3 ) = F ( A 2 A 3 ) - 
1/4.因为，要 A !, A 2 同时发生（抽岀的球上既有1又有2)，必须 
抽出第四球.这样，对任一对事件，都有1/4 = P ( AiAj ) = 
PCAOPUjhmAhAhAs 为两两独立. 

但乂1，42，乂3不是相互独立.因为，易见 i ^ AiAgAg ) 也是 
1/4,而 KAdPMd / HAd 为 1/8,二者不相等， 

在现实生活中，难于想像两两独立而不相互独立的情况.可以 
这样 想：独 立性毕竟是一个数学概念，是现实世界中通常理解的那 
种“独立性”的一种数学抽象，它难免会有些不尽人意的地方. 

独立性的概念在概率论中极端重要.较早期（比方说，到上世 
纪30年代止)的概率论发展中，它占据了中心地位.时至今日，有 
不少非独立的理论发展了起来，但其完善的程度仍不够.而且，独 
立性的理论和方法也是研究非独立模型的基础和工具.在实用上， 
确有许多事件其相依性很小，在误差容许的范围内，它们可视为独 
立的，而方便于问题的解决. 

利用本节中引进的事件运算，独立性概念，加法乘法定理，可 
计算一些较复杂事件的概率.举几个例子 

例 3.4 考虑本节开始处提到的那个“打飞机”的例子.按所 
作规定，“飞机被击落”这事件可表为 

E = E 0 + E x E 2 

设三事件独立.这假定从实际角度看还算合理.记 £： q ， 
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E u E 2 的概率分别为 Po . PuPi - 为算 E 的概率 P (£) ，不能直接 
用加法定理，因£：0与并非互斥，考虑瓦，易见它二互 0^2. 
因 E 0 , E !， E 2 独立，按系 3.2 后面指出的， If ) 和^^独立，故 

P ( E ) - P ( E 0 ) P ( E ^2) 

有尸(瓦 0 ) = 1 - P (£ 0 ) = 1-夕0, 卜 1 - ^(£#2) =卜 

P ( E l ) P ( E 2 )=l - 九外.代入上式得 P ( E ) = (1 - p 0 )(l - 
Pi 户 2), 而 

P ( E ) =1 - P ( E ) = 1 ~ (1 - p 0 )(l - p ' p 2 ) 

= 夕 0 + Plp2 - PQP\P2 

例 3.5 甲、乙二人下象棋，每局甲胜的概率为 a ， 乙胜的概 
率为为简化问题，设没有和局的情况，这意味着 a + 6 = 1. 

设想甲的棋艺高于乙，即 a >6 .考虑到这一点，他们商定最终 
胜负的规则如下 ：到什 么时候为止甲连胜了三局而在此之前乙从 
未连胜二局，则甲胜.反之，若到什么时候为止乙连胜了二局而在 
此之前甲从未连胜三局，则乙胜.现要求“甲最终取胜”这事件 A 
的概率 p ( A )， 及“乙最终取胜”这事件 B 的概率 PW ). , 

为方便计，分别以£和 F 表甲、乙在特定的一局取胜的事件， 
有 P ( E )^ a , P ( F ) 二6,现考虑“甲取胜”的事件 A ，分两种情况. 
1. 第一局甲胜而最终甲胜了. 

这一情况又可分解为许多子情 况：对 w =0，1，2…，甲经过 n 
个“阶段”后才取胜，每个阶段是或££厂然后接着来一个 
£：££•例如，甲经过4个阶段后获胜的一种可能实战结果为 

EEF EF EEF EEE 

即共下了 11局甲才获胜，其中第1，2,4,6,7,9,10，11局甲胜，其 
余乙胜. 

每个阶段不是就是 £ EF ， 这两种情况互斥，又由独立性， 
知每个阶段概率为以+ “以=以（1 + ^).再由独立性，知“经《阶 
段后甲获胜”的概率，为 [ M(l + a )] % 3 . ” 可以为0，1，2,…，不同 
的 w 互斥.于是这部分概率总和为 
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p = a 3 2[ a 6 (l + a)] rf = a 3 /[l — ab {\ + a ) _ 

Ti —i) 

2. 第一局乙胜而最终甲胜了. 

既然第一局为 F 而最终甲胜，第二局必须是 E ， 故从第二局 
作起点看.我们回到了情况1，从而这部分的概率为 6^( 请读者注 
意，这里事实上已用了概率的乘法定理 ： J P (第一局乙胜且最终甲 
胜） = P (第一局乙胜) P (第二局甲胜且最终甲胜），第一项为6而 
后--项为，总合两个情况（它们互斥），用加法定理，得 

P ( A ) = a 3 (l + b )/[\ - ab (\ + a )] (3,13) 

直观上我们觉得，这个竞赛无限期拖下去分不出胜负是不可 
能的，这意味着 P ( B ) = 1- P ( A ). 可是，上述直观看法仍须证明， 
不如直接算.方法与算 P ( A ) —样，但须分三种情况 :①第 一局乙 
胜.②第一局甲胜，第二局乙胜.③前两局甲胜，我们把具体计算留 
给读者（习题 16) .结果为 

P ( B ) = (1 + a + a 2 ) b 2 /[l - ab (\ + a )] (3.14) 

由于 a + 6二1，极易验证 PU ) + P ( B ) = 1. 

这个例子值得细心品味.第一，它提供了一个涉及到无限个事 
件的情况（在甲最终取胜前可以经过任意多的“阶段”），以及在无 
穷个事件时使用加法定理 (3.1) .第二，本例告诉我们，在面对一个 
复杂事件时，主要的方法是冷静地分析以设法把它分拆成一些互 
斥的简单情况.这里，必须细心确保互斥性又无遗漏，一着不慎，满 
盘皆非. 

例 3.6 设一个居民区有^个人，设有一个邮局，开 c 个窗 
口，设每个窗口都办理所有业务 . c 太小，经常排 长队； c * 太大又不 
经济. 

现设在每一指定时刻 ，这； 2个人中每一个是否在邮局是独立 
的，每人在邮局的概率都是，设计 要求： “在每一时刻每窗口排队 
人数(包括正在被服务的那个人）不超过 W ”这个事件的概率，要 
不小于 a (例如 ， a = 0.80,0. 90或 0.95) .问至少须设多少窗口？ 

把《个人编号为1，…，〃，记事件 
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E t — 1 在指定时刻第 i 个人在邮局办事丨 ， i = 1 ，…， 则在指 

定时刻，邮局的具体情况可以用形如 

E { E 2 E 3 E 4 E 5 E 6 E 7 E 8 … E ， "E n —i E„ (3.15) 

这种事件去描述之.为了 每个窗 口排队人数都不超过 w ， 在上述 
序列中，不加£：的个数，至多只能是 cm . 现固定一个々< 
cm ，来求“在 (3.15) 中恰有 A 个不加 bar 的£:”这事件私的概率. 
由独立性以及尸(£；.) = /> ，尸 ( 瓦） =1- 户，知每个像 (3.15 )那样的 
序列且不加 bar 的£恰有 A 个时，概率为 y ( l - f 广― 弋但々 个不 
加 bar 的位置，可以是 n 个位置中的任何々个.因此 ，一 共有 



个形如 （3.15) 的序列，其中不加 bar 的£:恰有 A 个，这样得 


mP ( B k ) = -户广'由于左可以为 0，1， … ， cm ， 且不同 

的々对应的私互斥，故得 

P (每个窗口排队人数不超过 m ) = £(? W (1 - p) n ^ k 


找一个最小的自然数 c ， 使上式不小于指定的 a ， 就是问题的答 
案. 

这是一个有现实意义的例题.在 n 较大时，可用更方便的近 
似方法确定 c ， 参见第三章例 4.1 .当然，实际问题比本例描述的要 
复杂得多，因为有一个每人服务时间长短的问题.这时间长短并非 
固定而是随机的.这类问题属于排队论，是运筹学的一个分支.本 
例是运筹学与概率论有联系的一个例子. 


1.3.8 全概率公式与贝叶斯公式 


全概率公式 

设仏，^，…为有限或无限个事件，它们两两互斥且在每次 
试验中至少发生一个.用式表之 ， BP 

Bfi 3 = 0( 不可能事件），当 f 
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Bj + B 2 + ■** = D (必然事件） 

有时把具有这些性质的一组事件称为一个“完备事件群”.注意，任 
一事件 B 及其对立事件组成一个完备事件群. 

现考虑任一事件 A . 因 D 为必然事件，有 A = A /2- AB ! + 
AS 2 + ….因私，^^，…两两互斥，显然 ABnABh …也两两互斥. 
故依加法定理 3.1 ， 有 

P(A) - PiABO + P(AB 2 ) + - (3.17) 

再由条件概率的定义，有 P ( AB ,) 二 P ( B /) P(A |氏）.代人上式得 
• P ( A ) = P(B l )P(A\B l ) + P ( B 2 ) P ( A | B 2 ) + … 


(3.18) 

公式 (3.18) 就称为“全概率公式”.这名称的来由，从公式 (3.17) 和 
(3.18) 可以 悟出： “全部”概率 P ( A ) 被分解成了许多部分之和.它 
的理论和实用意义在于 :在较 复杂的情况下直接算 P ( A ) 不易，但 
A 总是随某个 B , 伴出，适当去构造这一组找往往可以简化计算. 
这种思想应用的一个实例是例 3.5 中算“乙最终获胜”这事件 A 
的概率.我们在该例中已 指出： A 必伴随以下三种互斥情况之一 
而发生：乙； 甲乙； 甲甲.只是该例的特殊性使我们可只用加法定理 
而不必求助于全概率公式. 

这公式还可以从另一个角度去理解.把战看作为导致事件 A 
发生的一种可能途径.对不同途径， A 发生的概率即条件概率 
P(A | B ) 各各不同，而采取哪个途径却是随机的.直观上易 理解： 
在这种机制下， A 的综合概率 P ( A ) 应在最小的 P ( A | 战）和最大 
的 P(A | 扶）之间，它也不一定是所有 P(A I _ B ) 的算术平均，因为 
各途径被使用的机会 P (找）各各不同，正确的答案如所预期，应 
是诸尸（八|战），^1，2，...，以二1，2,…为权的加权平均 
值.一个形象的例子如下 ：某中 学有若干个毕业班，各班升学率不 
同•其总升学率，是各班升学率的加权平均，其权与各班学生数成 
比例.又如若干工厂生产同一产品，其废品率各各不同.若将各厂 
产品汇总，则总废品率为各厂废品率之加权平均，其权与各厂产量 
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成比例.再举一个例， 

例 3.7 设一个家庭有 A 个小孩的概率为九，々=0，1，2, …， 
又设各小孩的性别独立.且生男、女孩的概率各为1/2.试求事件 
a = i 家庭中所有小孩为同一性别}的概率. 

引进事件艮=丨家庭中有 A 个小孩1，则，…构成完备 
事件群， P (民）=九，现考虑 P ( A | 攻）.约定当々=0时其值为 1. 
若々>1，则 A 个小孩性别全同有两种可 能：全 为男孩，概率 
(1/2) 、全为女孩，概率也是（1/2)、因 

P(A I B k ) = 2{\/2 ) k = l /2 k ^\k >1 

由此，用全概率公式，得出 

oo 

P ( A ) = 如 + X ) Pk^ k ~ l 

k ^ 1 

贝叶斯公式 

在全概率公式的假定之下，有 
P ( B | A ) ^ P { AB t )/ P { A ) 

^ PiB ^ PiAlB ^/^ PiB ^ PiAlB ,) (3.19) 

这个公式就叫做贝叶斯公式，是概率论中的一个著名的公式.这个 
公式首先出现在茱国学者丁.贝叶斯 （1702 〜 1761) 去世后的1763 
年的一项著作中. 

从形式推导上看，这个公式平淡无奇，它不过是条件概率定义 
与全概率公式的简单推论.其所以著名，在其现实以至哲理意义的 
解释上 ：先看 戶(坧），尸(5 2 )，…，它是在没有进一步的信息（不知 
事件 A 是否发生）的情况下，人们对诸事件仏 ， S 2 , …发生可能性 
大小的认识.现在有了新的信息（知道 A 发生），人们对，… 
发生可能性大小有了新的估价•这种情况在日常生活中也是屡见 
不鲜 的：原 以为不甚可能的一种情况，可以因某种事件的发生而变 
得甚为可能，或者相反.贝叶斯公式从数量上刻画了这种变化. 

如果我们把事件 A 看成“结果”，把诸事件，…看成导 
致这结果的可能的“原因”，则可以形象地把全概率公式看作成为 
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“由原因推结 果”; 而贝叶斯公式则恰好相反，其作用在于“由结果 
推原 因”: 现在有一个“结果” A 已发生了，在众多可能的“原因” 
中，到底是哪一个导致了这结果？这是一个在日常生活和科学技 
术中常要问到的问题.贝叶斯公式说，各原因可能性大小与 P ( B i 
I / O 成比例.例如，某地区发生了一起刑事案件，按平日掌握的资 
料，嫌疑人有张三、李四……等人，在不知道案情细节（事件 A ) 之 
前，人们对上述诸人作案的可能性有个估计（相当于 P ( B !), 
P ( i 3 2 ) …），那是基于他们过去在局子里的记录.但在知道案情细 

节以后，这个估计就有了变化，比方说，原来以为不甚可能的张三， 
现在成了重点嫌疑人. 

由以上的讨论也不难看出此公式在统计上的作用.在统计学 
中，是依靠收集的数据（相当于此处的事件 A ) 去寻找所感兴趣的 
问题的答案.这是一个“由结果找原因”性质的过程，故而贝叶斯公 
式有用武之地.事实上，依据这个公式的思想发展了一整套统计推 
断方法，叫做“贝叶斯 统计”.在 本书后面的章节中将论及贝叶斯统 
‘计中的某些方法. 


下述简单例子可能有助于理解上述论点. 


例 3.8 有三个盒子各有100个球，其中 C ! 盒含 
白球80个，红球10个，黑球10个 ； C 2 为白10、红80、黑 10; C 3 为 
白10,红10,黑 80. 现从这三盒中随机地抽出一个（每盒被抽的概 
率为1/3)，然后从所抽岀的盒中随机抽出一个球（每球被抽的概 
率为0.01)，结果抽出者为白球•问“该白球是从 c z 盒中抽岀”的 
可能性有多大？ f -1,2,3. 

记战 = 1抽出的为匸；盒丨， z •二1，2，3; A =丨抽出白球 f ，要求 
的是条件概率 P (氐 I / O .按假定有 

P ( B X ) - P ( B 2 ) - P ( B 3 ) = 1/3 

P ( A \ B x ) = 0.8,P(A|B 2 ) - 0 A 9 P ( A \ B 3 ) = 0.1 
代人 (3. 18 )， 算出 . 

尸 ( 坧 | A) 二 0.8,P(B 2 | A) = 0.1,P(B 3 I A) = 0.1 

因为 q 盒所含白球最多，故在已知抽出白球的情况下，该球 
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系来自 Ci 盒的可能性也最大，理所当然.可能仍有读者不完全了 
然于心，则可以设想这么一个试验 :准备 两张纸，把例中的试验一 
次又一次的做 下去: 每抽出一个盒，在左边的纸上记下其为 C ! 或 
(： 2 或 c 3 (不管从该盒中抽出的球如何），而只有在抽出的球为白 

球时，才在右边纸上记下该盒为 Ci 或 c 2 、 c 3 .在进行了极大量次 
数试验后，会发现左边纸上 q 的比例很接近1/3,而在右边纸上 
C x 的比例则很接近 0.8. 

例 3.9 设某种病菌在人口中的带菌率为 0.03 .当检查时，由 
于技术及操作之不完善以及种种特殊原因，使带菌者未必检出阳 
性反应而不带菌者也可能呈阳性反应.假定 

P (阳性 I 带菌）= 0.99， P (阳性丨带菌）= 0.01 
jP (阳性丨不带菌 ） = 0.05， P (阴性 I 不带菌 ） = 0.95 
现设某人检出阳性，问“他带菌”的概率是多少？ 

此问题相当于二0.97,且 

P ( AlBi ) - 0.99, P ( A | B 2 ) - 0.05 

所求的概率为尸(5 1 |4).按公式(3.18)算出 

(0.03)(0.99) / [(0.03)(0.99) 4- (0.97)(0.05)] = 0.380 
就是说，即使你检出阳性，尚可不必过早下结论你一定带菌了，实 
际上这种可能性尚不到百分之四十. 

这个例子很值得玩味，且对其“思维定势”中无概率成分的人 
来说，简直有点难以置信.说穿了，理由简单之极.由于带菌率极 
低，在全人口中绝大部分不带菌.由于检验方法之不完善，在这大 
批人中会检出许多呈阳性者.另一方面，带菌者在全人口中很少， 
即使全检出呈阳性，在这两部分呈阳性者的总和中也只占相对较 
小的一部分，而大部分属于“虚报”性质.这个例子说明，提高精确 
度在这类检验中极为重要. 

一个不懂概率的人可能会这样推理 ：由于 不带菌时检出阳性 
的机会才 0.05 .我现在呈阳性，说明我有 1-0.05 = 0.95 的机会 
带菌•实际不然•大而言之，概率思维是人们正确观察事物而必备 
的文化修养，这样说也许并不过分！ 
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习 


题 


1. 有5个事件 ， Aj ，…， A 5 .用它们表示以下的 事件： 

( a ) B 〗= ，…， A 5 中至多发生 2 个 1 

( b ) B 2 = U ^-,^5 中至少发生 2 个 i 

2. 证 明：若 A ， B 为两事件，则 

( a ) A + B 二 A 十 A ), 右边两事件 互斥； 

( b ) + B = ( B - A )+ AB ， 右边三事件互斥. 

3. (A + B )-( A _ B ) 二？ 

4. 把 n 个任意事件 Ai ，…，之和表为 n 个互斥事件之和. 

5. 通过把 A + B + C 表为适当的互斥事件之和，以证明 

P(A + B + C ) = P ( A ) + P ( B ) + P ( C ) - P ( AB ) - P ( BC ) 

- P ( CA ) + P ( ABC ) 

6. 有没有可能两件事 A , 3又互斥又独立？ 

7. P ( A - B ) = P (/0- P ( B ) 是否必成立？何时成立？ 

771 71 

8. 记 C = UA + IT 马，通过 A lJ B J 及其对立事件表出5, 

i — 1 j~i 

9. 如果把 PUlBAhA ) 理解为 “ jB 对 A 有促进作用”，则直观上似 

乎能设想如下的结论 :“由 PM | B )> P ( A ) 及汽別0>户（3)推出 P ( A \ 
0>尸(焱）”（意思是:5促进4,0促进3，故 C 应促进 A ). 举一简例证明上 
述直观看法不对. ' ‘ 

10. 证 明：若 A ， C 独立， B ， C 也独立，又互斥，则八十召与匸独 

JL . 

更一般地，若 A ， C 独立， B ， C 独立, AB ， C 也独立，则 A + B 与 C ： 独立. 
说明： 上一结论是本结论的特例. 

11. ( 接上题)若除了 “/\， C 独立， B , C 独立”之夕卜，别无其他条件，则推 
不出 A + B 与 C 独立，试举一反例以说明之. 

12. 若 A ， C 独立， B ， C 独立， A + B ， C 也独立，则与 C 独立.但若 

去掉 “A + 也独立”的条件，则结论不再成立.举一反例以说明之. 

13. 办一件事件有6个关节，必须 :①第 1个关节要走通，②第2,3关节 
至少通一个，③第4,5,6关节至少通2个，事情才能办成. 

( a ) 设置必须的事件，以表出“事情办成”这个事件. 

( b ) 若各关节独立且每关节走通的机会为2/3.求事情能办成的概率. 
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14. 由 P (/ \|8)>户(/\) 推出 P ( i 3 八）>尸(/3).直观上怎样解释这个事 


实. 

你认为，由尸(八旧）>尸(义），尸(八10>户(八），能否推出 P ( A \ BC )> 
P ( A ) 9 若认为能，请证明之，若认为不能，请举出反例. 

15. 由 P ( A )> P ( A | B ) 推岀 P ( A )< P ( A | 万）.指出一种可能的直观 
解释. 

16. 设/\卜八 2 ，… ，卓 独立，而岛= A 或 4( 不同的^可以不一样，例 

如，的=，馬= A 2 , 等等），€ = 1，…， n ,试用归纳法证明：，…， B „ 也独 

■ !„■ 

止. 

17. —个秘书打好4封信和相应的4个信封.但她将这4封信随机地放 
入这4个信封中，问“每封信都放得不对位”这事件的概率是多少？ 

18. —盒内有8张空白券，2张奖券，有甲、乙、丙三人按这个次序和以下 
的规则，各从此盒中随机抽出一张.规则如下 ：每人 抽出后，所抽那张不放回 
但补人两张非同类券 （即： 如抽出奖券，则放回2张空白券，等等）.问甲、乙、 
丙中奖的概率各有多大？ 

19. 某作家的全集共 p 卷，现买来《套(共矽本），随机地分成 n 堆，每 
堆户本，问“每堆都组成整套全集”这事件的概率为多少， 

20. 在例 1.1 中，把胜负规则改为“谁先胜四局者为胜”.问在甲2胜1负 
的情况下中止赌博，应按怎样的比例瓜分赌本才算公平？ 

21. 把例 3.1 中的事件的定义 改为： B 二 I 至少有一个骰子掷出么 
点 L ' 求€例中事件 A 的条件概率 P ( A | B ). 

直观上看结果应相同，但算出的结果不同，如何解释？ 

22. 在例 2.3 中，把“排成一列”改为“排成一圆圈”.证明例中所说的事 

n + m ~ \ 
m 

23. 四人打桥牌，问 ：“至 少有一方没有 A ” 及“至少有一方恰有两个 A ” 
这两个事件的概率. 

24. 有一个半径为1的圆周 C . 甲、乙二人各自独立地从圆周上随机地 
取一点，将两点连成一条弦/，用几何概率的方法计算“圆心到〗的距离不小 
于1/2”这个事件的概率. 

25. 把8个可以分辨的球随机地放人7个可以分辨的盒子中，问“其中 
有两个盒各得2球，一个盒得3球，一个盒得1球”这事件的概率是多少？ 

26. 设男女两性人口之比为51:49.又设男人色盲率为296，女人色盲率 



件 A 的概率为 
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为0.25% . 现随机抽到一个人为色盲，问“该人为男人”的概率是多少？ 

27. 设有；2个独立事件 A ! ，…， A „， 其概率分别为 Pi ， …， A ，记 P == 
pi + …+ .设0</^<1 ， i 二 1，…， w . 证明： 

( a ) “ At ，…， A „ 都不发生”这个事件的概率小于 e 〃. 

( b ) ，…， 中至少发生々个”这事件的概率小于 〆 / P . 

28. 投掷10粒均匀骰子，记事件 

A 二 i 至少有2粒骰子出么点1 
B = 1至少有1粒骰子出么点 I 

求条件概率 P ( A | B ). 

这个题可不可以这 样算: 既然已知至少掷出一个么点，不妨（因各骰子地 
位对称)就设第一粒骰子掷出么点.因而所求的条件概率 为：掷 9粒骰子至少 
出现一个么的概率，即1-<5/6) 9 .为什么？ 

29. 假定某种病菌在全人口的带菌率为10%，又在检测时，带菌者呈阳、 
阴性反应的概率为 0.95 和 0.05, 而不带菌者呈阳、阴性反应的概率则为 
0.0〗和 0.99 .今某人独立地检测三次，发现2次呈阳性反应，1次呈阴性反 
应 .问： “该人为带菌者”的概率是多少？ 

30. 甲、乙二人约定了这样一个赌博 规则： 有无穷个盒子，编号为《的盒 
子中，有 n 红球1白球，《二1，2,…，然后甲拿一个均匀铜板掷到出现正面为 
止.若到这时甲掷了 n 次，则甲在编号为《的盒子中抽出一个球，如抽到白 
球算甲胜，否则乙胜.你认为这规则对淮更有利？ 
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第二章随机变量及概率分布 

2.1 —维随机变量 

2.1.1 随机变量的概念 

顾名思义，随机变量就是“其值随机会而定”的变量，正如随机 
事件是“其发生与否随机会而定”的事件.机会表现为试验结果 ，一 
个随机试验有许多可能的结果，到底出现哪一个要看机会，即有一 
定的概率.最简单的例子莫如掷骰子，掷出的点数 X 是一个随机 
变量，它可以取1，…，6等6个值.到底是哪一个，要等掷了骰子以 
后才知道.因此又可以说，随机变量就是试验结果的函数.从这一 
点看，它与通常的函数概念又没有什么不同.把握这个概念的关键 
之点在于试验前后之 分：在 试验前，我们不能预知它将取何值，这 
要凭机会，“随机”的意思就在这里，一旦试验后，取值就确定了.比 
如你在3月31日买了一张奖券，到6月30开奖.当你买下这张奖 
券的后我就对 你说: 你中奖的金额 X 是一个随机变量，其值要到6 
月30日“抽奖试验”做过以后才能知道. 

明白了这一点就不难举出一大堆随机变量的例子.比如，你在 
某厂大批产品中随机地抽出100个，其中所含废品数 X ;—月内某 
交通路口的事故数 X ;用天平秤量某物体的重量的误差 X ;随意 
在市场上买来一架电视机，其使用寿命 X 等等，都是随机变量. 

随机变量的反面是所谓“确定性变量”，即其取值遵循某种严 
格的规律的变量.例如你以每小时 a 公里的勻速从某处向东行， 
则经〖小时后，你距该处故公里.这一点我不待你做完这个试验 
(即走了 t 小时后)就能准确预知.在这种理想的条件下，你与该处 
的距离 X 并非随机变量.然而，你的速度必然会受到许多因素，包 
括随机性因素的影响，而成为不能预知的，这使你在 z 时间内行走 
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的距离 X 成为随机变量，从绝对的意义讲，许多通常视为确定性 
变量的量，本质上都有随机性，只是由于随机性干扰不大，以至在 
所要求的精度之内，不妨把它作为确定性变量来处理. 

再考虑一个打耙的试验.在靶面上取定一个直角坐标系 
Oo ；， 则命中的位置由其坐标（ X ， Y ) 来刻画， X ， Y 都是随机变 
量，而 （ X ， Y ) 则称为一个二维随机向量或二维随机变量，多维随 
机向量，…，尤）的意义据此推广，前面几个例子中的 X 都是 
一维随机变量，通常就简称随机变量. 

关于随机变量(及向量）的研究，是概率论的中心内容.这是因 
为，对于一个随机试验，我们所关心的往往是与所研究的特定问题 
有关的某个或某些量，而这些量就是随机变量.当然，有时我们所 
关心的是某个或某些特定的随机事件.例如，在特定一群人中，年 
收入十万元以上的高收人者，及年收人在8000元以下的低收人 
者，各自的比率如何，这看上去像是两个孤立的事件.可是，若我们 
引进一个随机变量的 X : 

. X -随机抽出一个人其年收入 
则 X 是我们关心的随机变量.上述两个事件可分别表为丨 x > 
10000丨和 jx <3000| .这就看出 ：随机 事件这个概念实际上是包容 
在随机变量这个更广的概念之内.也可 以说： 随机事件是从静态的 
观点来研究随机现象，而随机变量则是一种动态的观点 ，一 如数学 
分析中的常量与变量的区分那样.变量概念是高等数学有别于初 
等数学的基础概念.同样，概率论能从计算一些孤立事件的概念发 
展为一个更高的理论体系，其基础概念是随机变量. 

随机变量按其可能取的值的全体的性质，区分为两大类. 

一 类叫离散型随机变量.其特征是只能取有限个值，或虽则在 
理论上讲能取无限个值，但这些值可以毫无遗漏地一个接一个排 
列出来.前者的例子如掷骰子的点数 X (6 个可能值），从大批产品 
中抽出100个其中的废品数 X (101 个可能 值）； 后者的例子如一 
月内某交通路口的车祸数，它理论上讲可以取0，1，2,…等任一非 
负整数为值.从实用的观点说，这变量也只能取有限个值.例如，可 
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肯定它不会超过 10 1 G .但由于不像前两例那样有一个明确的界线， 
不如把它视为能取无穷个值，理论上倒反简便些. 

另一类叫连续型随机变量.这种变量的全部可能取值不仅是 


无穷多的，并且还不能无遗漏地逐一排列，而是充满一个区间.例 


如秤量一物体重量的误差，由于我们难于明确指出误差的可能范 


围，不妨就把它取为（-⑺，％)更方便.又如电视机的寿命，其范围 
可取为(0，〜），也是一种抽象. 

说到底，“连续型变量”这个概念只是一个数学上的抽象.任何 
量都有一定单位，都只能在该单位下量到一定的精度，故必然为离 
散的.但是当单位极小时，其可能值在一范围内会很密集，不如视 
为连续量在数学上更易处理.其次，关于连续型随机变量这个概念 
还需补充其一个重要方面，这留到本节 2.1.3 段再谈. 

2.1.2 离散型随机变置的分布及重要例子 

研究一个随机变量，不只是要看它能取哪些值，更重要的是它 
取各种值的概率如何.例如从一大批产品中随机抽出100个其中 
所含废品数 X . 当废品率小时， X 取0,1,…等小值的概率大.反 
之，若废品率很高，则 X 取大值的概率就上升. 

定义 1.1 设 x 为离散型随机变量，其全部可能值为 Uh 
… K 则 

Pi 二 P(X - a t ) 9 i = 1 , 2 ,-" ( 1 . 1 ) 

称为 X 的概率函数. 

显然有 

Pi ^Oyp l + /) 2 + - 1 (1 . 2 ) 

后一式是根据加法定理，因为事件丨 X = ^，或…丨为必然事 
件，而又可表为一些互斥事件|久二4丨，1叉=心1，一之和. 

因此，概率函数 （1.1) 给出 了：全 部概率1是如何在其可能值 
之间分配的.或者说，它指出了概率1在其可能值集|以，心，…丨 
上的分布情况.有鉴于此，常把 （1.1) 称为随机变量 X 的“概率分 
布”.它可以列表的形式 给出： 
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能值 

a \ ai … ci [ … 

概 

率 

Pi Pi ••• Pi 


(1.3) 


有时也把 （1.3) 称为 X 的分布表.它也可以形象地用图 2.1 表出. 
图中横轴上标出可能值之坐标，而在&处的竖线之长则表示事 
件 = a ，丨的概率. 



例如，掷两粒均匀骰子，以 X 记出现点数之和，则 X 取2, 
3, …， 12等共11个可能值.要确定其概率分布，只好对上述每个/ 
去计算 P ( X =0, 例如/ = 6.投两个骰子可出现36种不同的但等 
可能的组合，其中有利于事件 IX = 6|的组合有5种，8卩（1，5)， 
(5，1)，（2,4)，（4,2)，（3,3).故 /> 6 二 二 6) = 5/36.类似地算出 

其他 p t , X 的分布表为 


可 

能值 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

概 

率 

1 

2 

3 

4 

5 

6 

5 

4 

3 

2 

1 

36 

36 

36 

36 

36 

36 

36 

36 

36 

36 

36 


(1.4) 

对离散型变量，用概率函数去表达其概率分布是最方便的.也 
可以用下面定义的分布 函数： 

定义 1.2 设 X 为一随机变量，则函数 

P ( X < x ) = F ( x ), - 00 < j ： < oo (1.5) 

称为 X 的分布函数.注意这里并未限定 X 为离散型 的：它 对于任 
何随机变量都有定义.对离散型随机变量而言，概率函数与分布函 
数在下述意义上是等价的，即知道其一即可决定另一个.事实上， 
若知道概率函数(1.1〉，则 
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FU ) = P ( X < x ) = S { , : ai < xl A * 

这个和号的意思，是指求和只对满足条件的那些 z _ 去进行. 
如对上例而言，由分布表 （1.4) 算出 

F (~ 1) - 0， F (2.5) = 1/36， 

F (5) = (1 + 2 + 3 + 4)/36 二5/18 
等等.反过来，由分布函数也易决定分布表.仍以此例来说，如知道 
了 X 的分布函数 FU )， 则为算 A = PU = f )， f =2,3, …，11，只 
须注意 

lx< i \ = f - 1 } + ix = f 1 

且右边两事件互斥.于是 

F ( i ) = P ( X < o = P ( X < z - 1) + P(X - 0 
= F(i — 1) + P(X = 0 
因而 p ^ PiX - F ( i - l ). 

对任何随机变量 X ，其分布函数 F ( x ) 具有下面的一般 性质： 
1° PXx ) 是单调非降的：当 （ Xi 〈: Z ：2) 时，有 F ( XiXF ( X 2). 
这是因为当 X !<^ 2 时，事件丨蕴含事件，因 
而前者的概率不能超过后者的概率. 

2° 当 x — 00 时， )— 1;当: r —— 00 时， F (: r )—0. 

这是因为，当 : T — OO 时，愈来愈接近于必然事件，故其 
概率，即 F (: T )， 应趋于必然事件的概率，即1.类似地得出后一论 
断. 

下面来讨论几个在应用上常见的离散型随机变量的例子. 

例 1.1 设某事件 A 在一次试验中发生的概率为 /). 现把这 
试验独立地重复 n 次，以 X 记 A 在这 w 次试验中发生的次数.则 
X 可取0，1，…， n 等值.为确定其概率分布，考虑事件丨 X 二 fl . 要 
这个事件发生，必须在这77次试验的原始记录 

中，有！个 A ，72- i 个 A . 每个 A 有 概率户 而每个 Z 有概率1-， 
又％次试验独立”表示在每次中 A 岀现与否与其他次试验的结 
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果独立.因此概率乘法定理给出 ：每个 这样的原始结果序列发生的 
概率，为女 （1- 又因为在 Ti 个位置中 A 可以占据任何；个 

位置，故一共有 f j 种可能.由此得出 

Pi = b 、 i'n ， p ) 二 0(1 - p ) n ~ l , i = 0， l ，-"， n (1.6) 

X 所遵从的概率分布 （1.6) 称为二项分布，并常记为 
BU ， p ). 以后，当随机变量 X 服从某种分布 F 时，我们用 X-F 
来表达这一点.例如， X 服从二项分布就记为 X 〜 

二项分布是最重要的离散型概率分布之一.上面已指出 ：变量 
X 服从这个分布有两个重要 条件： 一是各次试验的条件是稳定 
的，这保证了事件 A 的概率在各次试验中保持 不变； 二是各次 
试验的独立性.现实生活中有许多现象程度不同地符合这些条件， 
而不一定分厘不差.例如，某厂每天生产〃个产品，若原材料质 
量、机器设备、工人操作水平等在一段时期内大体保持稳定，且每 
件产品之合格与否与其他产品合格与否并无显著关联，则每日的 
废品数 X 大体上服从二项分布.又如一大批产品 A / 个，其废品率 
为，从其中逐一抽取产品检验其是否废品，共抽 n 个.若每次抽 
出检验后又放回且保证了每次抽取时，每个产品有同等的 1/ N 的 
机会被抽出，则这 n 个产品中所含废品数 X 就相当理想地遵从二 
项分 布 B (72 ， p ) 了. 反之，如果每抽岀一个检验后即不放回去，则 
下一次抽取时，废品率已起了变化，这时 X 就不再服从二项分布 
了 .但是，若 N 远大于77，则即使不放回，对废品率影响也极小，这 
时， X 仍可近似地作为二项分布来处理. 

例 1.2 波哇松分布.若随机变量 X 的可能取值为0,1, 
2,…，且概率分布为 

P(X = 0 - (1.7) 

则称久服从波哇松分布，常记为 X ~ P ( A ). 此处 A >0是某一常 
数. （1.7) 右边对 z '=0， l ， …求和的结果为1，可以从熟知的公式 
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= 2 A^'/z ! 得出. 

7 这个分布也是最重要的离散型分布之一，它多是出现在当 X 
表示在一定的时间或空间内出现的事件个数这种场合.前面提到 
的在一定时间内某交通路口所发生的事故个数，是一个典型的例 
子.这分布产生的机制也可以通过这个例子来解释.为方便计，设 
所观察的这段时间为[0，1).取一个很大的自然数 n ， 把时间段 
[0，1)分为等长的 n 段： 

/ i [ 0，+)，，2 =[ 丄， 2 

L n j L n n 

n — \ 
n 

作几个 假定： 

r 在每段&内，恰发生一个事故的概率，近似地与这段时 
间之长1成正比，即可取为 A /1 又假定在 n 很大因而 l / n 很小 

n 

时，在这么短暂的一段时间内，要发生两次或更多的事故是不 
可能的.因此，在/;时段内不发生事故的概率为1 - 1 / V ? . 

2° “，…， l n 各段是否发生事故是独立的. 

把在[0，1)时段内发生的事故数 X 视作在 n 个小时段^，…， 
/„内有事故的时段数，则按上述 r ， 2° 两条假定， x 应服从二项分 

布 B(77 ， /IA7) .于是 





( 1 . 8 ) 


严格讲， （1.8) 只是近似成立而非严格等式.因为在假定 r 中，在 
每时段内发生一次事故的概率只是近似地为 A / n . 当 oo 取极 
限时，就得到确切的答案.注意当时 



得知 （1.8) 式右边以 e ' A X 4 / i \ 为极限，由此得出 （1.7). 

从上述推导看 出：波 哇松分布可作为二项分布的极限而得到. 
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一般地说，若X〜 B(72，/0, 其中7?很大，很小而 np — X 不太大 
时，则X的分布接近于波哇松分布这个事实在所述条件下 
可将较难计算的二项分布转化为波哇松分布去计算，看一个例子. 

例 1.3 现在需要100个符合规格的元件.从市场上买的该 
元件有废品率 0.01 .故如只买100个，则它们全都符合规格的机 
会恐怕不大，为此，我们买100 + a 个 .a 这样取，以使“在这100 + 
a 个元件中至少有100个符合规格”这事件 A 的概率不小于 
0.95 .问 a 至少要多大？ 

在此，我们自然假定各元件是否合格是独立的.以X记在这 
100+ a 个元件中所含废品数，则X有二项分布 B(100 + a， 
0.01).事件六即事件|入<^ 2 丨，于是义的概率为 

« /100 + a \ 

F(A) - ^jP(X - 0 - E . (0.00^(0.99) lf)0+a - / 

t =0 ( = o \ i ! 

(1.9) 

为确定最小的 a 使 P(A)>0.95, 我们得从 a =0开始，对 a -0, 
1，2,…依次计算 （1.9) 式右边之值，直到算出 >0.95 的结果为止. 
这很麻烦. 

由于 100+a 这个数较大而 0.01 很小， （100+a)(0*01) = 
1 +a(0.01) 大小中，可近似地用波哇松分布计算.由于平均在100 
个中只有一个废品， a 谅必相当小.故可以用1近似地取代 l + a 
(0.01). 由此，X近似地服从波哇松分布 P(l)， 因而 

a 

P(X<a)^ 

/■二 n 

计算出当 a -0,1, 2,3时，上式右边分别为0.368,0.736, 0.920 
和 0.981 .故取已够了. 

除了二项和波哇松这两个最重要的离散型分布外，还有几个 
离散型分布，其重要性略次一些，但也很常用.其中有超几何分布 
与负二项分布. 

例 1.4 考虑第一章的例2.1，以 X记从 N 个产品中随机抽 
出”个里面含废品数.按该例的计算，X的分布为（第一章 （2.7) 
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式）: 


P(X = m )= 



( 1 . 10 ) 


至于 m 的取值范围，必须 - m < iV - AUMn，N 
= 500，《 = 50 ，M = 25 j!lm 的范围为 0< m <25. (1.10) 称为超 
几何分布，是因为其形式与“超几何函数”的级数展式的系数有关. 

这个分布在涉及抽样的问题中常用，特别当/ V 不大时.因为 
通常在抽样时，多是像在本例中这样“无放回的”，即已抽出的个体 
不再有放回去以供再次抽出的机会，这就与把〃个同时抽出的效 
杲一样.如果一个一个地抽而抽出过的仍放回，则如在例 1.1 中已 
指出的，结果是二项分布.在例 1.1 中也曾指 出：若 n / N 很小，则 
放回与不放回差别不大.由此可见，在这种情况下超几何分布应与 
二项分布很接近.确切地说，若 X 服从超几何分布 （1 .10)，则当^ 
固定， M/N = p 固定， N — oo 时， x 近似地服从二项分布 
B(n ,p). 

例 1.5 为了检查某厂产品的废品率/>大小，有两个试验方 
案可采 取：一 是从该厂产品中抽出若干个，检查其中的废品数 X ， 
这一方案导致二项分布，已于前述.另一个方案是先指定一个自然 
数 r . 一个一个地从该厂产品中抽样检查，直到发现第 r 个废品为 
止•以 X 记到当时为止已检出的合格品个数.显然，若废品率 f 
小，则 X 倾向于取较大之值，反之当户大时，则 X 倾向于取小值. 
故 X 可用于考究户的目的. 

为计算 X 的分布，假定各次抽取的结果（是废品或否)是独立 
的，且每次抽得废品的概率，保持固定为.考察 z •丨这个事 
件，为使这个事件发生，需要以下两个事件同时 发生： ①在前 f + 
r -1 次抽取中，恰有 r - 1个废品.②第 f + r 次抽出废品.按所作 
假定，这两事件的概率分别为 6( r _ l ;£ + 和 />. 再由独 

立性，即得 

P(X — f ) = b(r - 十 r — l ， p)p 
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r _ 1 jp r (l - p)\ ( 1 . 11 ) 

(i - 0 ， 1 ， 2 , …） 

这个分布称为负二项分布.这名称的来由，一则由于“负指数二项 
展开式” 


(1 



oo 

1=0 




(- x ) 1 = 





^,/z + r — 1\ 

=E , 

/ =o \ r - 1 / 

中令 : r = 1- f 并两边乘以得 

1 = p r [\ - {I - p)]~ r ^ 2 [ 1 )^ r d - py 

㈣ \ r ~ 1 I 

(这验证了分布 （1.11) 确满足 （1.2)) .另一则由于例中所描述的试 
验方式，它与二项分布比是“反其道而行 之”： 二项分布是定下总抽 
样个数 n 而把废品个数 X 作为 变量； 负二项分布则相反，它定下 
废品个数 r 而把总抽样次数减去 r 作为变量. 


一个重要的特例是 r = 1. 这时，注意到= 1之约定， 
(1.11) 成为 

P{X - 0 - p(l - p)\i = 0，1，2,… (1.12) 

概率 p ， p [ \ -/>)，/? (1- p ) 2 , …呈公比作为 1 - p 的几何级数，故 
分布 （1.12) 又常称为几何分布. 


2.1.3 连续型随机变置的分布及重要例子 


连续型随机变量的意义已在 2 . 1.1 段中解释过.对这种变量 
的概率分布，不能用像离散型变量那种方法去描述.原因在于，这 
种变量的取值充满一个区间，无法一一排出.若指定一个值则 
变量 X 恰好是 a —丝不差，事实上不可能.如在秤量误差的例中， 
如果你认定天平上的读数（刻度）是“无限精细”，则“误差正好为 
tt -3” 虽原则上不能排除，但可能性也极微以至只能取为0.如在 
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靶面上指定一个几何意义下的点（即只有位置而无任何向度），则 
“射击时正好命中该点”的概率，也只能取为 0. 

刻画连续型随机变量的概率分布的-个方法，是使用 （1.5) 式 
所定义的概率分布函数.但是，在理论和实用上更方便因而更常用 
的方法，是使用所谓“概率密度函数”或简称密度函数. 

定义 1.3 设连续性随机变量 X 有概率分布函数 F ( x )， 则 
FU ) 的导数 / U ，）= r ( x )， 称为 X 的概率密度函数. 

“密度函数”这名词的来由可解释如下.取定一个点 I ,则按分 
布函数的定义，事件 U < X < x +/ U 的概率 U >0 为常数），应为 
F(x + / z ) _ F ( 工） . 所以，比值 [ F (: T 十 h ) - F ( x )]/ h 可以解释为 
在 x 点附近六这么长的区间 （ x，i + / z ) 内，单位长所占有的概率, 
令6—0,则这个比的极限，即 f (: c ) = /( x ) ，也就是在 j ： 点处(无 
穷小区段内）单位长的概率，或者说，它反映了概率在 z 点处的 
“密集程度”.你可以设想一条极细的无穷长的金属杆，总质量为 
1，概率密度相当于杆上各点的质量密度. 

连续型随机变量 X 的密度函数 /(: r ) 都具有以下三条基本性 
质： 

1 。 f(x)>0 

2。 厂 f ( x)dx - 1 

J — oo 

3°对任何常数 a < 6有* 

P(a ^ X ^ b ) = F ( b ) - F ( a ) = ( x)dx (1.13) 

^ a 

r 显然 .2° 是说“全部概率为 r .3° 是微积分的基本定理（定积分与 
导数的关系）的直接应用•实际上，2°是3°当 a = 和心二 00 的 
特例. 

图 2.2( a )，（ b ) 分别表示某一连续型变量 X 的分布函数 F 和 


" 由于连续型变量取一个点的概率为0,故区间的端点是否包括在内无影响，也就 

是说，， U <_ Y < W ，和丨这四个事件都有同一的概率 
(K13). 
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密度函数 /. 从密度函数的图上可以明显看出该分布的一些特点. 
例如概率最大的集中区在 V 点附近，而在这点的两边呈对称性的 
衰减.图中斜线标出部分的面积表示变量 X m 在 a ， b 之间的概 
率.这些特点从分布函数的图上就不那么容易看出来. 



( a ) 


▲ / ⑷ 



O ^ a b x 


( b ) 


0 

下面举一些重要的连续型分布的例子. 

例 1.6 正态分布. 

如果一个随机变量具有概率密度函数 

/(x) = {/ 27 T(j)~ l e~ u ~ /，r/2(J \ - oo < x < 00 (1.14) 

则称 X 为正态随机变量并记为 X 〜 iVGj 2 ) .这里 iV 为 “ Nor ¬ 
mal ” 一词的首字母和 a 2 都是常数，//可以取任何实数值而0< 

a 2 <oo ■它们称为这个分布的“参数”，其概率意义将在第三章说 
明. 

需要证明 / U ) 确可以作为一个概率密度.为此须验证 f ( x ) 

、00 

>0， f { x)dx ^ 1 •前者显然.为证后者，作变数代换 t = (X - 

― oo 

p )/ a ， 转化为证明 



(1*15) 


为证此式，考虑 


I 2 


Coo 



e r/2 dt 


e 


u 


/2 


du 



2 


u 


)/2 cUd 



转化成极坐标 f == rcosd , u — rsin 0， 上式转化为 
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2tt 


dd 

0 



rdr = 2 tt 


即 （1.15). 

函数 （1.14) 的图形约如图 2.2b. 它关于 p 点对称，而后往两 
个方向衰减，属于“两头低，中间高”这种正常状况下一般事物下所 
处的状态.例如一群人的身高或体重，特大和特小的居少而中间状 
态的居多.举凡人的收入，大批制造的同一产品的某一指标等，都 
在不同程度上符合这一分布.这不但说明了“正态”这名字的来由， 
也说明了这种分布的重要性，正态分布还有理论上的解释，这一点 
留待下一章 3.4 节再谈. 

当 //二 l , cr 2 = l 时， （1.14) 成为 

f ( x ) = g~ x 72 / (1.16) 
它是正态分布 N (0，1) 的密度函数. N (0，1) 称为“标准正态分 
布”.在概率论著作中，其密度函数和分布函数常分别记为 cp { x ) 
和少( X ),并造有很仔细的表.本书也附有一个简单的少（ X )的 
表.标准正态分布之所以重要，一个原因在 于：任 意的正态分布 
AKp / 2 ) 的计算很容易转化为标准正态分布 iV (0， l ). 事实上，容 
易证明： 

若 X 〜 N ("， a 2 )， 则 y - (X - ")47 〜 N (0，1) (1.17) 

事实上 

P ( Y ^ x ) ^ P ( X - = P ( X <^ + ax ) 

, ^ f a^ax / 、2 ， 

= (/ 2 ^ ( t )- 1 e - (?- ") ^ 

J — oo 


(v2k) 


X 


e 


^ ^du 


其导数，即 Y 的密度函数，正是— 这证明了 
(1.17). 


例如， X 〜 N(1.5,2 2 )， 要计算 P( 
5)/2 〜 N (0，1)， 故 




1< X <2)， 则因 U - 


P (- 1 <X<2) -P 




2 


2 
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= P(- 1.25< (X - 1.5)/2 <0.25) 

- $(0.25) - 0 ( - 1.25) (1.18) 

然后查标准正态分布中的表.表上只有巾 （2) 当 x > 0 之值.对 
jr <0, 可利用公式 

.中 （ x ) 二 1 - ^>(~ x ) (1.19) 

而转化为: r >0 的情况. （1.19) 的证明很 简单： 


0 ( x ) = () _1 e— f 々 d ，= (^/ 2 n ) 

J —oo 


roo 



^ -x 


2^ 

e ' ^dt 


(VItt) 




2 ^ 

e _? ^dt 


=1 - 0(- x ) 

用 （1.19)， 由 （1.18) 式得 

P (~ 1<X<2) -少 (0.25) + ^(1.25) - 1 
查 0U) 的表，得① （0.25) 二0.5987, 0( 1.25) =0.8944,于是得 
到 P(-1<X<2)-0.4931. 

例 1.7 指数分布. 


若随机变量X有概率密度函数 


/( 工） 


( 1 . 20 ) 


Ae-' 当 x > 0 
0， 当: r<0 

则称X服从指数分布.其中 A >0为参数“，其意义将在后面阐 
明. 


由于 /U) 二0当： c<0, 表示随机变量取负值的概率为 0:X 
只取正值. /(X) 在 JT=0 处之值 A>0, 故密度函数 /(JC) 在 X -0 
处不连续.图 2.3 中描出了这函数当 A =1( 虚线）和 A =2( 实线) 
时的图形. 


变量X的分布函数易求得为 


F ( x ) = 


— OO 


j0, 当： r<0 

ll - e' 当： c > 0 


( 1 . 21 ) 


^因为 A >0， a :>0，（ l ，2) 式 e _； Lr 之指数 - Ax 总取负值.由于这个原因，也有把 
(1.20) 称为负指数分布的. 
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指数分布最常见的一个场合是寿 
命分布.设想一种大批生产的电子元 
件，其寿命 X 是随机变量.以 F ( x ) 记 
X 的分布函数.我们来证 明：在 一定的 
条件下， F (: T ) 就是(1.21)， 

我们要作的假定，从技术上说就是 
“无老化”.就 是说： “元件在时刻 x 尚 
能正常工作的条件下，其失效率总保持 
为某个常数 A >0,与 x 无关”.失效率 
就是单位长度时间内失效的概率.用条件概率的形式，上述假定可 
表为 



+ I X > x)/h = A ， A — 0 

此式解释如下 :元件 在时刻 jc 时尚正常工作，表示其寿命大于: r ， 
即 X >: r . 在: r 处，长为 / z 的时间段内失效，即 + 把 
这个条件概率除以时间段之长/2,即得在： r 时刻的平均失效率. 
再令 A —0, 得瞬时失效率，按假定，它应为常数 A . 

按条件概率定义，注意到 P ( X > x ) = l ~ F ( x),R 
iX>x}|x^X^x + /i} = )x < X ^ x + /z [ 

有 

P(x < X<x + A I X > x)/h 
- P(x < X<x + h )/( h (\ - F ( x ))) 

— [( F(jo + h ) - F(x))//i ]/(l - F ( x )) 

— F r ( x )/(1 - F ( x )) = A 

这个微分方程的通解为 F ( x ) - 1 - Ce ^(^ : r >0.> r <0 时 
FU ) 为 0) .常数 C 可用初始条件 F (0) 二 0( 因为 F (0)- P ( X < 
0)，而寿命<0的概率为 0) 定出为1，这样就得到 （1.21) 式. 

从这个推导也可以窥见参数 A 的意义 . A 为失效率.失效率愈 
高，平均寿命就愈小,下一章（见第三章例 1.3) 将证明 ： A — 就是平 
均寿命. 

由本例可 见:指 数分布描述了无老化时的寿命分布，但“无老 
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化”是不可能的，因而只是一种近似.对一些寿命长的元件，在初期 
阶段老化现象很小.在这一阶段，指数分布比较确切地描述了其寿 
命分布情况.又如人的寿命，一般，在50岁或60岁以前，由于生理 
上老化而死亡的因素是次要的.若排除那些意外情况，人的寿命分 
布在这个阶段也应接近指数分布. 

例 1.8 威布尔分布. 

若考虑老化，则应取失效率随时间而上升，不能为常数，而应 
取为一个 x 的增函数，例如 Ax ' 对某个常数 A >0, m >0. 在这个 
条件下，按上例的推理，将得 出：寿 命分布 F ( x ) 满足微分方程 
矿（^)/[1-穴1)]二久，，此与初始条件^'(0)=0结合，得出 

F ( x ) = 1 — e — (一 + 1) 广 1 

取 a 二 w 十 l(a >1) ，并把 X/{m + 1) 记为 A ，得出 

F { x ) — \ - e _/U ,x > 0 (1.22) 

而 F ( x ) = 0 当.此分布之密度函数为 


fix ) = ^ Xax<i le 心，工 > 0 (1.23) 

10, x <0 

(1.22) 和 （1.23) 分别称为威布尔分布函数和威布尔密度函数.它 
与指数分布一样，在可靠性统计分析中占重要的地位.实际上指数 
分布是威布尔分布当 a = 1时的特例. 

例 1.9 均勻分布. 

设随机变量 X 有概率密度函数 


, — a )， 当 
= lO , 其他 x 


(1.24) 


则称 X 服从区间 U ,6] 上的均匀分布，并常记为 X 〜.这 
里 a 都是常数，- oo <： a < ib < oo m 均匀分布这个名称的来由很 
明显••因为密度函数/在区间 U 乃]上为常数，故在这区间上，概 
率在各处的密集程度一样.或者说，概率均勻地分布在这区间上. 
均匀分布 RU ，6) 的分布函数是 
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0， x ^ a 

F ( x ) 二 < (x — a)/(b — a ) ,a K jo K b (1.25) 

、1 ， x ^ b 

/ 和 F 的图形分别如图 2.4 a，b 所示. 



在计算时因“四舍五人”而产生的误差，若以被舍人的那一位 
的前一位为单位，则可认为这个舍人误差服从均匀分布尺（-1々， 
均匀分布的一个好 处是: 借助于它容易实现对分布的模拟. 
首先，若以某种方法产生“随机数”（即像0，1，…，9这十个数字出 
现的概率都是1/10的那种数字，它可以用“摸球”等方式来实现. 
实用上用计算机程序可在短时间内产生大量随机数——严格地 
说，计算机中产生的并非完全随机，但很接近，故有时称为伪随机 
数），则如取”足够大，而独立地产生《个随机数字 ai ，…，〜时， 
则就很接近于[0，1]均匀分布尺(0，1).对一般分 
布函数 FU )， 若 F ( X ) 处处连续且严格上升，则其反函数 G 存 
在，这时易见，若 X 〜 R (0，1)， 则 G ( X ) 〜 F . 事实上， 1 G ( X )< 
W 这个事件，就是 iF ( G ( X ))< F ( x ) 丨即因而（注 
意到尺(0，1)的分布函数为 jP ( x ) = : 当 0< x < l ) 

P ( G ( X )< x ) - P ( X < F ( x )) - F ( jc ) 

这证明了 G ( X ) 〜 F •这样，用上述模拟方法产生 X 的模拟值后， 
代人 G 中即得分布 F 的模拟值.这个方法在模拟研究中常用，而 

显示了均勻分布的重要性.均勻分布还有其他重要的理论性质，不 
能在此细论了. 
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还有几个在统计应用上很重要的连续型分布，这留待本章 
2.4 节去讨论. 

2.2 多维随机变量（随机向量） 

2.2.1 离散型随机向量的分布 

随机向量的概念在 2.1 节 2.1.1 段中已提及过了.一般，设 X 
=(&，為，…， X „) 为一 n 维向量，其每个分量，即&，都 
是一维随机变量，则称 X 是一个72维随机向量或72维随机变量. 

与随机变量一样，随机向量也有离散型和连续型之分.本段先 
考虑前者，一个随机向量，…， X „) ，如果其每一个分量\ 
都是一维离散型随机变量，则称 X 为离散型的. 

定义 2.1 以 Un ， 似，… 丨记& 的全部可能值， 2 = 1,2,…， 
则事件 , X 2 = a 2 …， = 〜 I 的概率 

J \ f 2 } n 

P(h ， h ， " 、 jn ) 二 P(Xi 二 a ijr X 2 = a 2ii ， … ， X n = a '、 

j\ - 1 ， 2,…， A = 1 ， 2, … ， … ，九 = 1 ， 2, … （ 2.1) 

称为随机向量 X 二 （4, …，总）的概率函数或概率分布，概率函 
数应满足 条件： 

P(j\ ， h ， … ， jn) >0, X)…X) = 1 

4 h 

( 2 . 2 ) 

例 2.1 图 2.5 所示的二维离散型随机向量的 
概率分布为 


P ( x x -- 

= 2 ， x 2 

- 1) - 

1/3 

Pix , : 

= 2, X 2 = 

= 2.5) 

=1/4 

p ( x x -- 

= 5, X 2 : 

: 3) = 5/12 


从图上看出， Xi 的可能值为2和 5， X 2 的可能值为1，2.5和3.故 
形式上看， X = 应有6组可能值，即（2,1)，（2, 2.5)， 

(2,3)，(5，1)，（5,2.5)，（5,3). X 的概率分布告诉我们，实际上只 
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图 2.5 

例 2.2 多项分布. 


有第1，2,6组是真正的可能值，但 
这并无 关系： 对一组不可能的值， 
只要把它的概率定为0就行了.这 
一做法使我们可以把离散型分布 
统一写成 （2.1) 的格式，在理论上 
有其方便之处.自然，在具体例子 
中，如例 2.1 并无必要硬凑成那个 
形式，只要指出概率大于0的那部 
分就行了. 


多项分布是最重要的离散型多维分布.设，…，是 
某一试验之下的完备事件群，即事 件4 1 ，…，两两互斥，其和为 
必然事件(每次试验时，事件，…， A „ 必发生一个且只发生一 
个）.分别以 外， 外，…，/>„记事件 A 〖， A 2 ，…， A „ 的概率 ，则 p x > 

现在将试验独立地重复 N 次，而以足记在这 iV 次试验中事 
件 A 出现的次数，…， n ， 则 X = ，…， XJ 为一 n 维随机 
向量.它取值的范围是：&，… ，又 都是非负整数且其和为； V.X 
的概率分布就叫做多项分布，有时记为，…，九）.为定出 
这分布，要计算事件 

B = |Xj = k u ".，Xi = I ， … ， X” 二 


的概率，只须考虑 t 都是非负整 数且幻 +… +k n = N 的情况，否 
则 P ( s )=0 .为计算 P ( B )， 从 N 次试验的原始结果出 

发，它表示第一次实验事件八发生，第二次试验 A 发生，等等. 

J 1 J 2 

为使事件 B 发生，在中应有个1，々2个2,…等等. 
这种序列的数目，等于把/ V 个相异物体分成 72 堆，各堆依次有 
kuk 2 ， " 、 k n 件的不同分法.据第一章 (2.6) 式，不同分法有 An / 


(^ i ! … 匕！） 个.其次，由于独立性，利用概率乘法定理知，每个适 
合上述条件的原始结果序列… h 出现的概率，应为外/4 2 … 
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// .于是得到 

p(X\ = k\，Xi = ki ， … ， x n = k n ) 二 h M 1 /4 2 • p k n n 

(2.3) 

(k 为非负整数，是 i + … + k n ^ N ) 

(2.3) 就是多项分布，名称的来由是因多项展开式 

(joy + *** + x„) N = 2 # (2.4) 

XI * 表示求和的范围为： h 为非负整数，々1 +…+ k n = N , 在 

(2.4) 中令％ =九并利用+… + p n 二 1 ， 得 

这说明分布 (2.3) 适合条件 (2.2). 

多项分布在实用上颇 常见： 当一个体按某种属性分成几类时， 
就会涉及这个分布.例如，一 1 种产品分成一'等品 （ Ai ) 、二等品 
( a 2 )、 三等品 （ a 3 ) 和不合格品 M 4 ) 四类.若生产该产品的某厂， 
其一、二、三等品和不合格品的比率分别为0.15,0,70, 0.10 和 
0.05,从该厂产品中抽出 iV 个.若这 iV 个只占其产品的极少一部 
分，则可以把这 A / 个看成一个一个地独立抽出，且在抽取过程中， 
各等品的概率（即比率)不变.在这种情况下，若分别以 Xi ，…， x 4 
记这 n 个产品中一、二、三等和不合格品的个数，则 x - CXi ,-, 
X 4 ) 将有多项分布 M ( iV ;0.15,0.70,0.10,0.05) .又如在医学上， 

一种疾病的患者可按严重的程度分期等等，都属于这种情况. 

如果72 =2,即只有 A !， A 2 两种可能，这时 A 2 就是 Ai 的对 
立事件.由于这时有 A + 唯一地决定了 X 2 , 我们不必 

同时考虑和 X 2 , 而只须考虑就够了，这就回到二项分布的 
情形. . 


2.2.2 连续型随机向置的分布 


设，…， X „) 是一个72维随机向量.其取值可视为 n 
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维欧氏空间 兄 1 中的一个点.如果 X 的全部取值能充满尺”中某一 
区域，则称它是连续型的. 

与一维连续型变量一样，描述多维随机向量的概率分布，最方 
便的是用概率密度函数.为此我们引进一个 记号： A ，读作 “X 
属于 A ” 或“ X 落在 A 内”，其中 A 是 F 中的集合.是一 
个随机事件，因为作了试验以后， X 之值就知道了，因而也就能知 
道它是否落在 A 内. 

定义 2.2 若/(^，…， x„) 是定义在尺"上的非负函数，使对 
R n 中的任何集合 A ，有 

P(X G A) =…[/( 々， … ，： „)dxr“dx n (2.5) 

^ A J 

则称/是 X 的（概率)密度函数. 

如果把 A 取成全空间则 A 丨为必然事件，其概率为 
1.因此应有 

■ 

'oo r 

… /(A ， … ，工 n )d ： rr"dx„ = 1 (2.6) 


这是一个概率密度函数必须满足的条件. 

例 2.3 考虑二维随机向量 ( XhXO , 其概率密度函数 
为 


/(x lt x 2 ) 


|1/[(6 - a)(d - c )]， 当 a ^ x\ < b，c < 工 2 < d 

~ lo , 其他处 

则/非负且条件 (2.6) 满足.从/的形状看出，它在图 2.6 中那个 
矩形之外为0,说明（：^，乂 2 )只能取该矩形内的点为值.在这矩形 
内，密度各处一样，因而全部概率均勻地分布在这矩形内.从公式 
(2.5) 看出 ：若集 A 在矩形内，则 “X 落在 A 内”的概率 
P ( X 6 A )， 与 A 的面积成正比而与其位置及形状无关，这是均匀 

性的另一种说法.以此之故，人们把本例中 X 的分布称为上述矩 
形上的均匀分布. 


例 2.4 向一个无限平面靶射击，设命中点有 
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图 2,6 图 2.7 


概率密度 

/(xi ， x 2 ) = 7T - i(l + Xl + X 2)' 2 

从这个函数看 出：命 中点的密度只与该点与靶心的距离 r 有关. 
这可以解释为 :在图 2.7 中以靶心 O 为中心的圆周上各点有同等 
被命中的机会.另外， d 十 d 愈小则/愈大，说明与靶心接近之 
点，较之远离靶心之点，有更大的命中机会. 

为验证 (2.6) 式只须转到极坐标，得 

oo 

JJ/(x! ,x 2 )djr!dx2 

一 oo 

rijt c °° 

= d8 7r~ l (l + r 2 )~ 2 rdr 

Jo 

= 2n • n~ l (1 + t)~ 2 dt/2 = 1 

Jo 

而“命中点与靶心之距离不超过这个事件 A 的概率为 

^ J ：2) dx \ dx 2 

J i + ^ r o 

=dd °7r _1 (l + r 2 Y 2 rdr = 4/(1 + r 各） 

Jo ^0 

例 2.5 二维正态分布. 
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最重要的多维连续型分布是多维正态分布.对二维的情况，其 
概率密度函数有形式 


_ 2p(j：i - a){x 2 - b) ( (x 2 ~ 6 ) 2 \ \ ( 2 7 ) 

a \ )) • 

这里为书写方便，引进了一个记号 exp . 其意 义是: exp ( c ) = e f ./ 
中包含了五个常数和它们是这个分布的参数，其可 
取值的范 围为： 

常把这个分布记为这函数（在三维空间中）的 
图形，好像一个椭圆切面的钟倒扣在 0 x ^2 平面上，其中心在 
( a ，6) 点. 

为了证明 (2.7) 式确实是一个密度函数，还须证明 （2.6) 式成 
立.为此，作变数代换 

u 二 (1 j 

r ^1 r <72 

得 

X\ ^X 2 )dx.\dx 2 ' 



f{x\ ,X 2 ) = (2 tTCTiCT 2 V 1 - p 2 )^GXp 




( u 2 - 2 pUU 



再作变数代换 t x :u— pu，t 2 = VT-p 2 u, 注意到 w 2 — 2puv + y 2 - 
U - 〜) 2 +(1- + 且变换的贾可比行列式为 

d t \ /d u dt\/3o 1 — p 

■■■ ■ 

dt2^U dti^V 0 V1 ~ p 2 
得 



oc 

f{oo x ,x 2 )dxidx 2 

%} 
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drid^2 


— (2tt)- 1 >/2^r \/ 2 k — 1 

这里用到 （1.15). 

类似地可定义 n 维正态分布的概率密度函数，这里不细讲 
了. 

在结束这一段之前，让我们指出几点有关 事项： 

1. 不论在一维或多维，在定义连续型随机变量时，实质之点 
都在于它有概率密度函数存在，即存在有函数/，满足 （1.13) 或 
(2.5) 式.在概率论理^上，把这一点直接取为连续型随机变量的 
定义 :它就 是有密度函数的随机变量.至于它可以在一个区间或区 
域上连续取值倒不是本质的，甚至也是不确切的. 

2. 与离散型随机向量的定义不 
同，连续型随机向量不能简单地定义为 
“其各分量都是一维连续型随机变量的 
那种随机向量”.举一个例 子：设 X x - 
R (0, 1), X 2 - X L , 则随机向量 
( XhXD 的两个分量 x 1? x 2 都是连续 
型的.但却只能在图 2.8 中所 
示的单位正方形的对角线（图中的虚 
线）上取值.因而不可能存在一个函数 

/( A ， x 2 ) 满足 (2.6) 式（二元函数在平面上任一线段上的积分都 



是 0)， g 卩 （ X l 5 X 2 ) 的概率密度函数不存在. 

3. 与一维情况一样，也可以用概率分布函数去描述多维随机 
向量的概率分布，其定义为 

= P ( X x K , x \, X 2 ^ , X n ^ x n ) 

然而，在多维情况下，分布函数极少应用. 
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2.2.3 边缘分布 


设 X = ( A ，… ，总）为一” 维随机向量. X 有一定的分布 F ， 
这是一个 tz 维分布.因为 X 的每个分量 X 都是一维随机变量，故 
它们都有各自的分布巧，/ = 1，…，72,这些都是一维分布，称为随 
机向量 X 或其分布 F 的“边缘分布”.以下我们要指 出：边 缘分布 
完全由原分布 F 确定，且从这个事实的讲解中也就悟出“边缘”一 
词的含义. 

等 

表 2.1 




行合计 

0.43 

0.57 


列合计 



.21 




例 2.6 表 2.1 以列表的形式，显示了一个二维随机向量 X 
= d ， X 2 ) 的概率分布.比如 

P ( X x - 1, X 2 = 5) = 0.21 

等等.现在如想求 Xi 的分布，则先注意到只有两个可能值， 
即1和3.而 = 这个事件可以分解为三个互斥事件 
jXi = 1 ? X2 — ~ 11 » I X \ = 1 9X2 ~ 0 l,|Xj = 1 ^ X2 = 5( 

之和，故其概率应为上述三事件概率之和，即 

P ( X l = I ) = 0.17 + 0.05 + 0.21 = 0.43 

类似地得 3) = 0.04+ 0.28+ 0.25 = 0.57 .用同样的方法 
确定 X 2 的概率分布为 

P ( X 2 =- 1) = 0.21, P ( X 2 = 0) = 0.33, P ( X 2 = 5) = 0.46 

注意这两个分布正好是表的中央部分的行和与列和.它们都处在 
表的“边缘”位置上.由此得出边缘分布这个名词.也有称为边际分 
布的. 
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从这个例子就不难悟出，在一般的离散型情况下，怎样去求边 
缘分布. 回到定义 2.1 的记号，以 Xi 为例，它的全部可能值为 
a n ， a 12 ， a n ， …，例如，我们要求它等于把 (2.1) 式 

那样的概率全加起来，但局限于 h =々（这相当于在上述简例 2.6 
中求行和或列和）.得 

P(Xi = a ik ) = Yj P(k，j 2 , …， j 丄 k 二 1，2’ … （2.8) 

例 2.7 设，… ，总） 服从多项分布 M(N；p u -, 
A ), 要求其边缘分布.例如，考虑，我们把事件4作为一方， 
A 2 + … + A „ 作为一方(它就是瓦），见例 2.2 的说明，那么，&就 
是在 iV 次独立试验中，事件 At 发生的次数，而在每次试验中 Aj 
发生的概率保持为 九 ，经过这一分析，不待计算就可以明了 ： J ^ 
的分布就是二项分布应用公式 （2.8) 也可以得出这个 
结 果:按 (2. 8)，注意到多项分布的形式 (2. 3)，有 

p ( x i = k) = 'pa • p k \,k\ 

V "，〜疋 2 _ 《"• 

这里， z ;/ 表示求和的范围为：纟 2 , …， t 都是非负整数，其和为 

V …人 

N-k •令 

Pi ^ P2,( 卜 夕 1 )， …， />: = PnAl - Pi) 

则 / >'2 + … K = ( / >2 + … + 九 ）/(1 ~ Pi ) 二 （1 — — / M )= 

1，且可把上式改写为 


p ( x x = = S / 


k. 




(N-k)\ 


*k 


Pi 




n 


•ITogw ， 

按多项展开式 (2.4)， 上式右边第一因子为 


Pi) 


N-k 


(// 2 + .•_ + p n ) 


k _ 


于是得到 
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=b(k;N ,p x ) ,k = 0 ， 1，.“，N 
正是二项分布 B (/ V ， 九）. 

现在来考虑连续型随机向量的边缘分布.为书写简单计，先考 
虑二维的情况，设 X 二 （ X t ， X 2 ) 有概率密度函数 / Um 2 ) .我们 
来证明 ：这时 A 和叉 2 都具有概率密度函数. 

为证明这一点，考虑&的分布函数 
它可以写为^^^《^^，^^〈⑺广注意到公式^乃父得 

、 广 QO 

^i(^i) = P(X 1 = 1 d “ f(tiyt 2 )dt 2 

J — oo J — oo 

, oo 

/(~，〖 2 )山 2 是~的函数，记之为 / 〆 〖!）. 于是上式可写为 

v — oo 


F x { x x ) 


1 

— oo 


两边对 A 求导数，得到的概率密度函数为 

dF 1 (x 1 )/dx 1 = /i(x!) = f{x x ,x 2 )dx 2 (2.9) 

J - oo 

这不仅证明了 A 的密度函数的存在，而且还推出了其公式.同理 
求出的密度函数为 


f2( 工 2 ) 二 f{x l9 x 2 )dx l ( 2 . 10 ) 

%/ oo 

这个结果很容易推广到 n 维的情 形：设 x = •，总 ） 有概率 

密度函数 /(〜 ，…， x „) •为求某分量 X ,的概率密度函数，只须把 
/( A ，…， A ) 中的 A 固定，然后对 A ，…，: C 卜 U 出 ，…，在- 
m 到 oo 之间作定积分.例如的密度函数为 

■'OO r OO 

/i ( 工 l) = … f(xi ， : t ： 2, … ，： r„ )dx 2 … 心〃 （ 2.11) 

%f — oo %) ~ oo 

例 2.8 再考虑例 2.3. 用公式（2.9)， （2.10) 很容易确定， 
Xj ， X 2 的边缘分布分别是均匀分布和尺（ 6 ‘，^).计算很 
容易，留给读者. 

例 2 . 9 考虑例 2 . 4 .按( 2 . 9 )，；^的边缘密度函数为 
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/l(^l) 1=1 ^ 


j + xly 2 dx 2 


作变数代换 t-Xi 

Zi (^ i ) = 


X\ 


，得 


- 3/2 


(1 + t 2 )~ 2 dt 


(1 + xi ) 


3/2 


积分 


)~ 2 dt 通过变数代换 r 二很易算出, 


例 2.10 二维正态分布 N ( a ，6，打，0，/0)的边缘分布密度. 
若 u t ， x 2 ) 有二维正态分布〜（^^，^，^，"，我们来证明：；^， 
x 2 的边缘分布分別是一维正态分布 a / U ， ct 〗） 和 NU ， ai ). 为证 

此，要计算 /( x 1 , x 2 ) dx 2 , 其中/由 （2.7) 式定义.注意到 


(^1 


2p(xi — a )(x 2 ~ b) + {xi ™ b ) 2 

^1^2 <72 


2 、 (X] - a) 2 ( X\ 

P)—~2 — + [p- 


x? _ b 


得到 


/i ( 工 l) 


f(xi J x 2 )dx 1 = (2tV(Ji(J2 


2 、一 1 


〆 ) 


# exp 


x\ ~ a) 
— 2 cr ? 


其中 


exp 


X\ 


工 2 


2(1 - p 2 ) 


dx 


作变数代换（注意 ^ 为常数，非积分变量) 

I X? — b x\ ~ a \ ! 

1 ^ \^ r ~ p ^ ri / 


1 - P 1 


exp (- t 2 /2)dt * <72 VT^p : 


v 1 — 〆 


以此代入前式，即得 


69 • 



f\(x x ) = (v^27T^i)~ 1 expi - ^^ 产 )I (2.12) 

这正是 / V ( a ， d ) 的概率密度函数. 

从这个例子看出一个有趣的事实 ：虽则 一个随机向量 X = 
(1 ，…，的分布 F 足以决定其任一分量 X 的(边缘）分布 F ; ， 
但反过来不 对：即 使知道了所有 X 的边缘分布二1，…，《，也 
不足以决定 X 的分布例如，考虑两个二维正态分布 

/ V (0,0， l ， l ， l /3) 和 N (0, 0,1, 1,2/3) 

它们的任一边缘分布都是标准正态分布 N (0，1)， 但这两个二维 
分布是不同的分布，因为 P 的数值不相同、这个现象的解释是•.边 
缘分布只分别考虑了单个 变量； C 的情况，而未涉及它们之间的 
关系，而这个信息却是包含在 （ Xi ， …， X „) 的分布之内的.如就本 
例来说，在下一章(见第三章 3.3 节）将指出 ：/ 0这个参数正好刻画 
了两分量 Xi 和之间的关系. 

在结束这一节之前，我们再强调指出 ：“边 缘”分布就是通常的 
分布，并无任何特殊的含义.如果说有什么意思的话，它不过是强 
调 了：这 个分布是由于 X ,作为随机向量 （& ，…， 总） 之一分量， 
从后者的分布中派生出的分布而已，别无其他,至于“边缘”一词的 
由来，已在例 2.6 中解释过了. 

与此相应，为了强调 （& ，…， X „) 的分布是把& ，… ，总作为 
一个有联系的整体来考虑，有时把它称为的“联合分 
布”. 

另外，边缘分布也可以不只是单个的.例如 x = ( x u x 2 , x 3 ) 
它的分布也决定了其任一部分，例如 （;^， x 3 ) 的二维分布，这也称 
为边缘分布.有关公式也不难导出，此处不细讲了. 

2.3 条件概率分布与随机变量的独立性 

2.3.1 条件概率分布的概念 

一个随机变量或向量 X 的条件概率分布，就是在某种给定的 
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条件之下， X 的概率分布.一如以前我们在讨论条件概率时所指 
出的，任何事件的概率都是“有条件的”，即与这事件联系着的试验 
的条件，如骰子是均匀的立方体且抛掷的高度是足够大之类.以 
此，任何随机变量或向量的分布，也无不是在一定条件下.但此处 
所谈的条件分布，是在试验中所规定的“基本”条件之外再附加的 
条件.它一般采取如下的形式 :设有 两个随机变量或向量 X ， Y ， 在 
给定了 Y 取某个或某些值的条件下，去求 X 的条件分布， 

例如，考虑一大群人，从其中随机抽取一个，分别以&和 X 2 
记其体重和身高，则 X 1? X 2 都是随机变量，它们都有一定的概率 
分布.现在如限制 1.7< X 2 <1.8( 米），在这个条件下去求&的 
条件分布，这就意味着要从这一大群人中把其身高在 1.7 米和 
1.8 米的那些人都挑出来，然后在挑出的人群中求其体重的 分布. 
容易想像，这个分布与不设这个条件的分布（无条件分布）会很不 
一样.例如，在条件分布中体重取大值的概率会显著增加. 

从这个例子也看出条件分布这个概念的重要性.在本例中，弄 
清了 Xi 的条件分布随 X 2 之值而变化的情况，就能了解身高对体 
重的影响在数量上的表述.由于在许多问题中有关的变量往往是 
彼此有影响的，这使条件分布成为研究变量之间的相依关系的一 
个有力工具.这一点以后在第六章中还要作更深入的发挥. 

2.3.2 离散型随机变置的条件概率分布 

这个情况比较简单，实际上无非是第一章讲过的条件概率概 
念在另一种形式下的重复，设为一个二维离散型随机向 
量， Xi 的全部可能值为 a 1 , a 2 ,*"； X 2 的全部可能值为 b x 、 b 2 , …， 
而(弋，乂 2 )的联合概率分布为 

Pij 二 P (入 1 = di ， X 2 = bj) ， i，j = 1,2,*** 

现考虑&在给定 X 2 =以的条件下的条件分布，那无非是要找条 
件概率 P ( X 1 ^ a \ X 2 = b J ), 依条件概率的定义，有 
P ( X x - ai \ X 2 = bj ) ~ P ( X x = a { , X 2 = b ] )/ P { X 2 = b } ) 

= P^P(X 2 - b,) 
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再据公式 (2.8)( n =2 的情况），有 PU 2 = ~) 二 ^2 p kj . 于是 

k 

P ( X x = a { \ X 2 ^ bj ) = p tJ / YjPkj^ i ^ 】，2, … （3.1) 

k 

类似地有 

P ( X 2 = bj \ X x ^ a { ) ^ Pij / Ypik’j 二 1，2,… （3.2) 

k 

例 3.1 再考虑例 2.6 .据公式 （3.1) 和 （3. 2)，不难算出在给 
定乂 2 时义 1 的条件分布，与给定时 X 2 的条件分布.例如，在 
给定 X 2 — 0时有 

P(Xi = 1 I X 2 = 0) = 0.05/0.33 = 5/33 
P(Xi - 3 I X 2 = 0) = 0.28/0.33 = 28/33 

例 3.2 设 d ， X 2 ，…， XJ 服从多项分布 M ( N ; 化，…， 
A ). 试求在给定 X 2 二 k 2 的条件下， Xi 的条件分布. 

先计算概率这里假定 h ，々 2 都是非负 
整数，且込.按 （2.3) 式，有 


P(X, - k ly X 2 - k 2 ) = 


N ! 


: 3 , 


、k 


k \\ k 2 \ k ^\*^ k n 


P \\ p k fp k $ … P % 


n 


这里] ^ 表示求和的范围为々 3 , …， 匕都是非负整数，且々 3 + 

k y …， k n 

+ k n ==N- (ki + k 2 ) •令 Pi — p t /(l ~ p\~ Pi ) > Z’>3, 有 

_ N ! 


P(X t = k iJ X 2 - k 2 ) 


^ i! ^2 ! (iV — k\ — 々 2)! 

• P k \^H\ — Pi 一 P2) N — k 「 k 2C 


其中 


C= 

务 ^ ， * * ■，走 




由于 〆 3 + … + 〆 „ 二1， 考虑到上式求和的范围及多项展开式 
(2.4)，即知 C = l ， 因此 


P(X { = k u X 2 = k 2 ) 



々 i! 々 2!(N — h — 々 2 )! 


M 1 P k f ( 1 ~ pi ~ P 2 、 N ' — k 2 
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再根据例 2.7， X 2 的分布就是二项分布 B ( N ， p 2 ). 因此 
P ( X x = k x \ X 2 ^ k 2 ) 

- F ( X x = k x ， X 2 二 k 2 )/ P ( X 2 = k 2 ) 


❿ ~ pl _ p2) 


N - k t - k , 


N ! 


•/ k 2 l(N—: KV)~\ P ^ X 一 p2 ) 

(N - k 2 )\ ( p, 

k x \(N - k x - k 2 ) V1 - Pi! 


N — k . 


Pi 

1 - Pi 


N-k 


=b(ki\N - k 2 ,P\^(^ - Pi)),k = 0，1，…， N - k 2 

由此 可知： 在给定 X 2 = k 2 的条件下， Xi 的条件分布就是分布 
B(N - k 2 , p 2)) ， 

2.3.3 连续型随机变置的条件分布 


设二维随机向量 X -( X !， X 2 ) 有概率密度函数 f { x u x 2 ). 
我们先来考虑在限定 a < x 2 <6 的条件下， Xi 的条件分布.有 

F ( X 1 ^ x 1 | a < X 2 <6) 

= P ( X 1 <^: 1 ,a < X 2 < ^)/ P(a < X 2 < 6) 

X 2 的边缘分布的密度函数 / 2 由 （2.10) 给出.有 

P ( X x Kx lJ aKX 1 ^ h ) 

*x ^ 'h 

= dti /(h“2) 山 2 

^ — OO J (X 

P(a ^ X 2 ^ 6) = /2(，2) d ，2 

」 a 

由此得到 

P(X! <X! I a < X 2 <^) 


j j 

= d^i f(ti ， t 2 )dt 2 

V — CO V I %) Q 

这是的条件分布函数.对:^求导数，得到条件密度函数为 

、& j f & 

/i(xj t a < X 2 < 6) = f(x ] , t 2 )dt 2 / 2 U 2 ) 心 2 (3*3) 
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更有兴趣的是 a = 6 的情况，即在 X 2 给定等于一个值之下， 
Xi 的条件密度函数.这不能通过直接在 (3.3) 中令 a 二6得出，但 
可用极限 步骤： 

/i(xi I x 2 ) =/i(xi I X 2 = x 2 ) 

- lim/i(x! I *r 2 < X 2 < 工2 + 办 ） 

= 弛 ~h\? +hf{x ^ i ^i x ^ i\T hf2(t2)dt2 

2 2 

= /(-Tl ，工 2)/,2(:2) (3.4) 

这就是在给定 X 2 = x 2 的条件下， Xi 的条件密度函数.此式当然 
只有在 / 2 u 2 )>0 时才有意义.在上述取极限的过程中，还得假 
定函数/ 2 在々点连续，及/(々山）作为 Z 2 的函数，在 o 二 x 2 处 
连续.然而，用高等概率论的知识，可以在没有这种连续的假定下 
证明 （3.4). 

(3.4) 式可改写为 

/(xi，x 2 ) = , 2 (工 2 )/ 1 (工 1 1 $ 2 ) (3.5) 

就 是说: 两个随机变量和 X 2 联合概率密度，等于其中之一的 
概率密度乘以在给定这一个之下另一个的条件概率密度.这个公 
式相应于条件概率的公式尸(仙）=尸（則尸（4|£).除（3.5)外， 
当然也有 


f(x lJ x 1 ) = ,1( 工 1)/ 2 (*3： 2 | Xi) (3.6) 

其中 / i 为心的边缘密度，而 

/ 2 (x 2 l Xi) = f(^i ， x 2 )/fx(xi) (3.7) 

则是在给定的条件下， X 2 的条件密度.这些公式反映的 
实质可推广到任意多个变量的场合 ：设有 n 维随机向量，…， 
夂） ，其概率密度函数为 /( Xi ，…，: T „). 则 

/( x !，*", x „) = g (^ u -% x k ) h ( j ： k + lJ -% J 0 n lx ! ,***,^) 

(3.8) 

其中，…，的概率密度，而 h 则是在给定，…， 
oc k 的条件下， & + 1 ，…，的条件概率密度. （3.8) 可视为 
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(3.6) 的直接推广，又可视为 h { x k + \,'- , x n \ xi ，…， a ) 的定义. 

例 3.3 设 ( XhXj 服从二维正态分布 N ( a ， b ， A ， a 2 2 ， P ). 
求在给定的条件下，乂 2 的条件密度函数/ 2 (工 2 丨:^). 

利用公式 (3.7) ，（2. 7) 和 (2. 12)，经过简单的计算，得出 


/ 2 (x 2 l xi) 


1 


v 27 ra 2 v \ — p 2 


• exp — 


( 工 2 - （ 6 十 p^2al l {x\ - a))) 2 

2(1 — p 2 )< y \ 


(3.9) 

这正是正态分布 N{b + pa 1 a x x ( x i - a )， g(l _ 〆 ））的概率密度 
函数（注意在 (3,9) 式中， xi 当常数看）.因此，正态变量的条件分 
布仍为正态，这是正态分布的一个重要性质. 

如我们在图 2.26 中所显示的，正态分布 iV (^，<7 2 ) 关于"点- 
对称， " 就是分布的中心位置，对正态分布 (3. 9)，这个中心位置在 

m ( x \) ~ b + ~ (3.10) 

处，由这里可以看出 p 刻画了 之间的相依关系.其解释如 

下：若 p >0, 则随着 a 的增加， X 2 ( 在之下）的条件分布 
的中心点 mUD 随:^的增加而增加.可以看出 ：这意 味着当力 
增加时， X 2 取大值的可能性增加，即 X 2 有随着 Xi 的增长而增长 
的倾向（如体重与身高的关系那样），反之，若 p <0, 则 X 2 有随着 
Xi 增长而下降的倾向.由于这个原因，通常把^>0的情况称为 

“正相关”，而0<0的情况称为“负相关”.这一点在下一章中还要 
谈到. 


把 (3.5) 两边对 X 2 积分，得 

^oo 广 oo 

/i ( 工 1) = f(xi ， x 2 )dx 2 = f\(x\ I x 2 )/2(x 2 )dj：2 

v — OO <J — oO 


(3.11) 

这个公式可解释为 .. Xi 的无条件密度 // xi ) ，是其条件密度/^ 
(: ^1 x 2) 对“条件”: r 2 的平均•更确切地说，是按其概率大小为权的 
加权平均，因为， / 2 U 2 ) dx 2 正是 X 2 在： r 2 附近 dx 2 这么长的区 
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间内的概率.从直观上看这应当是很自然的，比如说 ，（ A ， X 2 ) 代 
表一大群人中随机抽出的一个人的体重和身长，(体重）有其 
(无条件)分布，这可以看作为各种不同的身高综合之后所呈现的 
分布，而不同于固定身长 X 2 - X 2 时的条件分布.但把各种身长时 
体重的条件分布进行平均，也就实现了上述综合，即得到无条件分 
布.公式 (3.11) 正好从数学上反映了这种综合（或平均）的过程. 

还要注意 ：公式 （3.11) 也可以看作是全概率公式（第一章) 
(3.17) 在概率密度这种情况下的表现形式.在这里， ，（ Xl ) 相当 
于全概率公式中的相当于条件概率 PiAlB ,), 
而 (3.11) 中的积分，正好相当于 （3.17) 式中的以 P (私）为权的加 
权和. 

由此可见，在学习概率论时，不能光是形式地看待一些分析公 
式，更重要的是要分析其概率意义及直观意义，这样才能加深理 
解.上述对公式 (3.11) 的分析是一个例子.再如，在例 3.3 中我们 
用形式推导很容易得出了条件密度 （3.9) 式.只看这形式推导，你 
可能地觉得这里没有什么特别值得注意的地方.但经过分析 
(3.10) 式中 p 的作用，再辅之以体重身高这个实例，我们就领悟 
到了 ^作为刻画二者的相依性的作用，理解就深一层了.在下一 
章中我们还要进一步讨论 (3.9) 所反映出的其他概率含义. 


2.3.4 随 机变* 的独立性 

先考虑两个变量 X lf X 2 的情况，并设 （ X ^ A ) 为连续型.如 
前，分别以 

联合、边缘与条件概率密度. 

一般，/ 〆 々1 JC 2) 是随；的变化而变化的，这反映了 &与 
x 2 在概率上有相依关系的事实，即的（条件）分布如何，取决 
于另一变量之值. 

如果 flixi I X 2 ) 不依赖于 X 2 , 因而只是：^的函数，暂记为 
gGi ) ，则表示 A 的分布情况与 x 2 取什么值完全无关，这时就 
称 X l 5 X 2 这两个随机变量(在概率论意义上）独立.这概念与事件 
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独立的概念完全相似. 

把 ( J ：1 | X 2) 二《( ) 代入 (3 • 11 ) ， 得 

，oo 

/ l “ l )= g (工 1 )/ 2 ( 工 2 ) dx 2 

J —00 

'00 

= g(x\) / 2 (x 2 )dx 2 

J 一 00 

二发(工 1) 

因此，的无条件密度/ 〆 &)，就等于其条件密度/ 〆 & |巧）， 
这也可取为独立性的定义. 

再次，把/\(11)二/\(工1|工2)代人(3.5)，得 

/( x 1? x 2 ) = / i ( 工 1 )/ 2 ( 工 2 ) (3.12) 

即（；^，；( 2 )的联合密度，等于其各分量的密度之积.这也可取作为 
X !， X 2 独立的定义（此式相应于第一章 （3.7) 式），比之上述定义， 

它有其优越 性：一 是其形式关于两个变量对称，二是它总有意义， 
而在用条件密度去定义时，可能碰到条件密度在个别点无法定义 
(分母为 0) 的情况. 

这个形式的另一个好处是它可以直接推广到任意多个变量的 
情形.我们就把它取为一般情况下的正式 定义： 

定义 3.1 设 n 维随机向量 （ Xi ，…，的联合密度函数为 
/(々，…，〜），而\的（边缘)密度函数为/；_(&)，/ = 1，…，^如 
果 

/( X !，…， x „) = /1(：^)〜/„(: T „) (3.13) 

就称随机变量 X 1 ,** sX „ 相互独立或简称独立. 

变量独立性的概念还可以从另外的角度去考察.按前面的分 
析，它含有这种意思 ：如果 ：^，…，独立，则各变量取值的概率 
如何，毫不受其他变量之影响，因此，若考察；7个事件 

A! = Ui < Xi < | ， •- ,A„ = U„ < X„ < i 

(3.14) 

则因各事件只涉及一个变量，它们应当是相互独立的事件，我们可 
以把这个要求取为变量 Xi ，…，独立的定义.下面的定理证明， 
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这与定义 3.1 是等价的，即同一件事的两种不同的说法. 

定理 3.1 如果连续变量 X 〗，…，独立时，则对任何〜< 
二1，… ，心由 （3.14) 定义的》个事件 A ! ，…，八也独立 ■ 

反之，若对任何〜< 匕，…， n ， 事件 Ai ， …， A „ 独立，则 
变量&，…， X ,也独立 . 

证 先设 Xi , *, x „ 独立，因而 （ 3 . 13 ) 成立.为证事件八卜 
…， A „ 独立，按第一章定义3.3,必须对任何 
i 2 〈…< ) 去证明 

P(Ai Ai …人‘ ） = P ( A { ) P ( A l )- P ( A 1 ) 

l 2 ?n 12 m 

为书写简单计，我们对 “ = l ， i 2 = 2，".， i m = m 来证此式，这不影 
响普遍性.按联合分布密度的定义 (2.5) 式，有 
P ( A 1 A 2 »* A m ) 

_ P(a 1 < > X " 1 < b \， •“， a m b m 、 

二 P(aj ^ ^ , 

- 00 < X m + 1 < ① ，…， - oo < X n < oo) 


*00 


poo 

J 

J — c 

n 


m 


m 


I 

yjc n ) dxi -* dx n 


a 


b Cb 

m 






r °° pi 

/„(xjdiv" f m+ i(x)djr rn ^ l fx(x x )dx 

J — OO */ ^ 


Ch 


X 


fm ( )dx m 


j 


a 


m 


、 b‘ 


a 


6 


( 了 i 〉 dx i ’ * • f m ( 


a 


m 


~ P{^ \ ^ ^ 6i)***P(a m ^ X m ^ b m ) 

这证明了所要的结果. 

另一方面，若对任何 a , <6,，；二1，…，心 （3.14) 中的 n 个事 
件独立，则取 A , = | - oo < X r < x , 1，/ = 1，…， W ，由 
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即得 


P( A] A 2 ***A ; ,) = P(At)P(A2) … P(A„) 


xn 





dt ?l 




/„( r ") dr „ f 2( t 2 ) At 2 




X 


(q )dq 


上式两边依次对 X ] , X 2 , **•» X „ 取偏导数（即作 ) ， 
即得 (3.13) 式，因而证明了 X ,,-, X „ 独立. 

下面再提岀两个有关独立性的有用的结果. 

定理 3.2 若连续型随机向量（ X ,，…， X „) 的概率密度函数 
/( x ! ，…， x „) 可表为”个函数仏，… ，心 之积，其中仏只依赖于 
々，即 

/( x t ， …， x „) =紅1(工1)〜发„(工„) (3.15) 

则 X ,,-, X n 相互独立 ，且足 的边缘密度函数 /( a ) 与 g ,( x z ) 只 
相差一个常数因子. 

证按 (2.11) 式，知&的密度函数为 

^oo poo 

/l(ii) = … /(j：i ^«)dx 2 *"dx 77 

J — oo J — oo 


= ^ i (^ i)J _^ g2 ( x 2 ) dxy-\ i ^ g n ( x n ) dx TI ^ C lgl ( x x ) 

其中 C , 为常数.同法证明又的密度函数 C & U Z ). 

因此仏(^)=0「 1 /;(1,)，其中/；是: r , 的密度函数.以此代 
入(3.15)，知/(々，…， : r „) = Cr l C 2 1 …(: rj … /„ U „) .由 
此式两边对:^，…， x „ 的积分都为1>知 C { x Ci l - C~ l ^\MM 
/( x 〗 ，…，•按定义（3.1)，知 X 〗 ，…， 独 
立. 

定理 3.3 若& ，…， X „ 相互独立，而 

h 二 ^i(x 1 ,-**,x„,),y 2 = g2(x m+ 1 ， … ， x„) 

则 Yi 和 y 2 独立. 

这个定理直观上的意义很明白•.因为；^，…， x „ 相互独立，把 
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它分成两部分，… 及兄 2 + 1 ，…，，二者没有关系.因为 
y !, y 2 分别只与前者和后者有关，它们之间也不应有相依关系. 

证明细节也不难写出，在此从略了. 

以上讨论的是关于连续型变量的独立性，至于离散型则更为 
简单. 

定义 3.2 设 Xi ，…，都是离散型随机变量.若对任何常 
数…，…，，都有 

P(X { = ai ， … ， X n 二 a n ) : P(X l = “ 々 ..Pd = 

则称；^ ，…，兄 相互独立. 

所有关于独立性的定理，如定理 3.1 — 3. 3,全都适用于离散 
型.唯一的变动 是：凡 是在这些定理中提到“密度函数”的地方，现 
在要改为“概率函数”. 

例 3.4 设 （ XhA ) 服从二维正态分布 N ( a ， b，Hph 
由其联合密度函数/(工 1 ，工 2 )的形式（2.7)看出：当且仅当 / 0 = 0 
时， /( A ，:^) 才可以表为两个边缘密度 A (:^)和 / 2 ( x 2 ) 之积.因 
此，当且仅当0 = 0时， X !和 x 2 独立.这进一步反映了我们以前 
提及的一点事实 ：/ 0这个参数与的相依性有关. 

例 3.5 考虑例 2.4 的随机向量 UhD .据例 2.9 的结果， 
不难 知道： u 2 不为独立. 

与事件的独立性一样，在实际问题中，变量的独立性往往不是 
从其数学定义去验证出来的.相反，常是从变量产生的实际背景判 
断它们独立（或者其相依性很微弱因而可近似地认为是独立），然 
后再使用独立性定义中所赋予的性质和独立性的有关定理.例如， 
一 城市中两个相距较远的路段在一定时间内各自发生的交通事故 
数 ，一 个人的姓氏笔划与其智商.在实际中， w 个变量1 ，…， 
的独立性通常是这样产生 的：有 72个彼此无关联的试验£,，...， 
£：„，而&只依赖于试验£;的结果 .形 式上我们可以构作一个复 

合试验 £：=(& ，…， £；) ，以把这 w 个变量都包容在这个试验£： 
之下. 这种观点在讲事件独立性时已提到过了. 

然而，在主要是理论的情况下，需要直接借助于定义来验证变 
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量的独立性.举一个例子. 

例 3.6 设 A ， X 2 独立 ，都服 
从标准正态分布 N (0, 1). 把点 
(。，乂^的极坐标记为以，©)， 
0<尺<°°，0<0<2江.求证：尺和 

0独立（图 2.9). 

取定 r 。 >0,0< 0 o <27 r . 考虑 
事件 B 二 

由于 X !， X 2 独立且各自的密度函 
数分别为和/冗 _1 - 
e 心' 由独立性定义 3.1 知 



图 2.9 


( A ， X 2 ) 的联合密度为 (2 tt ) _1 exp | - 
度函数的定义 (2.5) 式，有 



. 因此，按密 



(27r) _1 exp 




dx\dx2 


A 


化为极坐标，得 


P(O^i?^r n ,O^0^0) = {2nY l ° °e~ r ^rdrdd 

U U i a ‘ n 


d. 


r 


由这个等式直接看出 ：（ 只， 0) 的概率密度函数就是 

(当 0< r < ⑺， O <0<2; r , 其他处为 0) .它是下述两个函数的乘 

积： 


A( 


< 


e - r /2 r ， 当 r >0 
0， 当 r <0 


fi(d) 


|1/2tt ， 0< 0 < 2?r 

0，当他 0 


按定理 3. 2,即得知 R 与 & 独立，且芡与0的密度函数分别是 
/1<>)和/ 2 (<9). 

离散型变量独立性的一个重要例子涉及事件独立性与随机变 
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量独立性之间的关系， 

例 3.7 设有《个事件，…，.针对每个事件 A , ，可 
定义一随机变量& 如下： 

X z 二1，当事件 A 发生； 二0,当 A 不发生 （3.16) 
常把&称为事件 A 的指示变量或指示函数、示性函数 （ indica ¬ 
tor )， 意思是其值“指示”了 A 是否发生.这个写法表 明：事 件可视 
作随机变量的一种特例. 

不难 证明： 若事件 / h ，…， A „ 独立，则其指示变量 Xi ，…， 
独立.反之亦成立.证明是基于第一章的系3.3,我们把细节留给 
读者自己去完成. 

利用指示变量的概念，可以对第一章系 3.2 后面那段话作出 
统一而简洁的论证.若事件 Ai ，…， 独立，而事件&取决于 
>^，…， AJ 这意思 是说: 一旦知道了事件 ，…， 中每一个发 
生与否，就能定下氐发生与否），事件取决于 A w + 1 ，…， A „， 
则氏与 S 2 独立.转到指示 变量： 分别以 ，…， X n EAi ，…， A „ 
的指示变量，以 h 和 Y 2 分别记^和 B 2 的指示变量.按假定， 
后者分別是入 i ，…， 与 X m + l ，…， X „ 的 函数： 

^ 宮 id ，…， X m )， Y 2 = g 2 ( X m+1 ，…， 

由 At ，…， A „ 独立知随机变量；^，…，独立.再据定理 3. 3,即 
知 h 与 Y 2 独立，因而事件私和独立. 

例 3*8 设 d ，…， ) 服从多项分布 M(N ; pi ，…， p n ) ， 
A >0」= ：[，•••， ；/. 对任何 u 关 u，X u 和兄不独立. 

这个结论从直观上看至为 明显： 按多项分布的定义有+… 
+ X „ = iV . 若;2>2,则 虽然总 并不足以唯一 决定足 ，但二者有 
关.例如，当取很大的值时，&取大值的可能性就降低.这说 
明：兄在给定乂„之下的^件分布，取决于的给定值，因而不 
符合独立性的要求•形式的证明也不难作出，留给读者去完成. 


2.4 随机变量的函数的概率分布 


在理论和应用上，经常碰到这种情 况：已 知某个或某些随机变 
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量 A ，…， 尤 的分布，现另有一些随机变量，…，，它们都是 

的 函数： 

Yi - gi ( X x ^'' y X n ) ,i = l，".，m (4.1) 

要求 （ Yi ，…， Y w ) 的概率分布.事实上我们已经考虑过这样的一 
个例子，即例 3.6. 

在数理统计学中常碰到这个问题.在那里， Xi ，…，是原始 
的观察或试验数据， h ， …，则是为某种目的将这些数据“加 
工”而得的量，称为“统计量”.例如，&，… ，兄 可能是对某个未知 
量 a 作71次量测的结果，量测有误差，我们决定用&，… ，总 的算 
术平均值十… + X „)/ w 去估计未知量 a . X 就是 Xi ，…， 
X „ 的函数. 

2.4.1 离散型分布的情况 

这种情况比较简单，故只须稍加解释.例如，变量 X 取6个值 
- 2, _1，0，1，2,3，其概率分别为 1/12,3/12,3/12,2/12，1/12和 
2/12,而 Y = Y 取 — 8, _1，0，1，8,27这6个值，它们没有 

相重的，故取这些值的概率，就仍如上述. 

但若考虑 Y = 则情况有所不同.相应于 X 的6个值的 Y 
值分别为4，1，0，1,4,9，其中有相重的.相重值的概率需要合并起 
来： 

F(F = 0) = P(X = 0) = 3/12 

I 

F(y - 1) = P(X - 1) + P(X -- 1 ) = 2/12 + 3/12 = 5/12 
p(Y = 4) = P(X 二 2) + P(X =-2) = 1/12 + 1/12 - 2/12 
P(Y = 9) = P(X = 3) = 2/12 

一 般情况在原则上也一 样:把 y = ，…， X „) 可以取的不同值 

找出来，把与某个值相应的全部（；^，…，值的概率加起来，即 
得 y 取这个值的概率.当然，在实际做的时候，涉及的计算也可能 
并不简单. 

例 4,1 设 （ X 1? X 2 , …，服从多项分布 
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/>„)，??>3 .试求 丫二/^^ + ^^的分布. 
Y 取值为0，1， …， / V •指定 I 有 


p(y = k ) = T / 峰命 …< 

这里 5]' 表示求和的范围为 

k t 为非负整数 ， h + k 2 = k ， k x v + k n 二 N 

记 p ; = p/(l - - 户 2) d = 3, …， n ， 贝 lj // 3 + …十 p '„ = 1.将上式 

写为 

P(Y " k) "k\(N- kj\ (l ~ pi ~ p2)jV 


Yr 


(N - k)l 
k 3 !-- k n ! 


/A 

PP ' 



n 


这里求和的范围为： & ， & 为非负整数 ， h h 二求 
和的范围为；々 3, …， h 为非负整数，々 3 + … + k n 二 N — k. 由于 


y 3 +…+ 乂 = 1.由 (2.4) 式知这个和的值是1 . 这个和 

的值为（川+ f 2 )' 于是得到 


P(Y - k) = kl( ^ _- k)l (pi + Pi) k [l - (Px + Pi)^ k 

~ b(k;N f pi + p 2 ) 

即 Y 服从二项分布十/ > 2 ). 

如果从概率意义的角度去考虑，这个结果不用计算就可以知 
道：在 定义多项分布时有； z 个事件〜，…，人.入1，叉2, 
X 3 ，…， X n 分别是它们在 N 次试验中发生的次数.现若记 A 二 At 


+八 2 ，则事件义，4 3 ，一，4„仍构成一个完备事件群，其概率分别 
为 + P 2， P 3, …， P n •记 ^二1 + 又 2 ,则（八乂 3 ，._‘，；0构成多 
项分布…(〜^”/^，/^，…，/^，而 Y 成为这个多项分布的一 
个边缘分布.于是按例 2.7 即得出上述结论. 

这就是我们前面几个地方曾提及的概率思维.概率论中有不 
少结果可以用纯分析方法证明，但如利用概率思维，有时证明可以 
简化,学习概率论的一个要素在于锻炼这种概率思维. 
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例 4.2 设&和 X 2 独立，分别服从二项分布和 B 
( n 2 ， p ) (注意 p 是公共的），求 Y^Xi + Xa 的分布 ■ 

Y 之可能值为0，1，...，〜+ ”2.固定々于上述范围内，由独 
立性假定，有 

P ( Y ^ k )^ 1]1(叉1 = 々1，乂2二石 2) 


2 / { ni ]p k ^i~p) n ^ k ^[ n2 P k A\~-p)^~^ 
k 




sr \ / 

2^j 


n 


«2 


此处 S ' 求和的范围为 ，々 2 为非负整数 ， h h 


k .按第 


章公式 (2.5)， 得 I ]' 


n \\ i 


ki \ k 2 


7?1 十 712 


，于是 


p ( y =^) = 


"i 十 

k 


p k (\- p ) 


k = b ( k ; n \ n 2 yp ) 


即 Y 服从二项分布石（^+ ~，户）.这个结果很容易推广到多个 
的情形：若 X t 〜 B ( ni ， p 、 ，i = 1 ，…， ;/】 ， 而 X !，…，独立，则 Xj 
+ * * ■ + X m 〜+ … +〜 ， P ) . 证明不难用归纳法作出，细节留 
给读者. 

上述结论如用“概率思维”，则不证 自明： 按二项分布的定义， 


若 X 〜，/?)，则 X是在 n 次独立试验中事件 A 出现的次数， 
而在每次试验中 A 的概率保持为 ，今足 是在％次试验中 A 出 
现的次数，每次试验 A 出现的概率为 />. 故丫 = 乂1 +〜+ ；^是 
在…+… + 7i m 次独立试验中， A 岀现的次数，而在每次试验中 A 
出现的概率保持为户.故按定义即得 Y — B(ni +…+ n m 9 p ). 

例 4.3 设 X U X 2 独立，分别服从波哇松分布 PUD * 
PU 2 )( 见例 1.2) .证 明： Y = A + X 2 服从波哇松分布 P ( A ! + 


久2 ) ， 

y 的可能值仍为一切非负整数.固定这样 一个々 ，则由独立性 
假定及波哇松分布的形式 （1.7) ，有 
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P(Y = k) ~ P(Xi = ki^X ，2 = ^2) 

= ^ i / P(X l = k x )P(X 2 - k 2 ) 

= X ； e~ A iAii/^i ! •e~ A 2 A^/ 々2 ! 

=e ' {x ' +X2)/kl ^ ， 

这里 I ] 7 的求和范围与上例相同，因而这个和等于 （Ai + Aj 夂故 

P(y = 是 ）= e- (A i +A 2>(A! + X 2 ) k /k\ 

因而证明了所要的结果.这结果也自然地可推广到多个的情形. 

在例1 .2 后面我们对波哇松分布通过二项分布而产生的过程 
作了一个解释，利用这个解释的架构，不须计算即可容易看出这个 
结论.我们留给读者自己去完成.这样解释的目的，倒不在于为了 
避免计算（就本例而言，计算很简单，可能比通过上述解释还简便 
些），而是它使人了解为什么会有这个结果（前面几个例子也如 
此）.形式的计算使人相信结果是对的，但不能提供直观上的启发 
性. 


2.4.2 连续型分布的情 况:一 般讨论 

本节的其余部分将讨论更有兴趣的连续型情况.这一段对处 
理这种问题的一般方法作些介绍，然后在 2.4. 3，2. 4. 4两段中，分 
别对两个在数理统计学上重要的情况专门进行讨论，并由此引出 
在数理统计学上几个重要的概率分布. 

先考虑一个变量的情况.设 X 有密度函数 /( x ) .设 Y = 
是一个严格上升的函数，即当 X { < X 2 时，必有 g (^ l )< 
g ( x 2 ) - 又设发的导数 〆 存在.由于 g 的严格上升性，其反函数 X 
= / i ( y ) 存在且的导数//也存在. 

任取实数因 s 严格上升，有 

r A (v) 

P ( Y ^ y ) ^ P ( g ( X ))^ y ) = P ( X ^ h ( y )) = ^ f ( t)dt 

v — oo 

y 的密度函数 Ky )， 即是这个表达式对 j 求导数（见定义 1 . 3 ). 
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有 

Ky ) = f ( h ( y )) h '( y ) (4.2) 

如果 Y 而 g 是严格下降，则 U ( X )<^ y 丨相当于 

.于是 

P ( Y < y ) = P ( g ( X )^ y ) = P ( X ^ h ( y )) = T 

J h(y) 

对^求导数，得 Y 的密度函数 

l ( y ) - - f ( h ( y )) h '( y ) (4.3) 

因为当 g 严格下降时，其反函数/^也严格下降，故^(>0<0.这 
样/( 7 )仍为非负的.总结（4.2)，（4.3)两式，得知在#严格单调 
(上升下降都可以）的情况下，总有 g ( X ) 的密度函数 l ( y ) 为 

l { y ) = f ( h ( y ))\ h f { y )\ (4.4) 

例 4.4 6 ，a 參0.反函数为 X = ( Y - 6)/ a . 由 

(4.4) 得出： 6的密度函数为 

Uy ) = f((y ~ b )/ a )/\ a \ (4.5) 

若 X 有正态分布 N ( p ， a 2 )， 则据正态密度函数的表达式 （1.14> 和 
公式(4.5〉，易算出 oX + 6服从正态分布 N(afi + b ， a 2 a 2 ). 特别， 
当 Y -( X -^)/ a 时，有 Y 〜 N (0，1) .这一点在例 1.6 中已指出 
过了， 

当而 g 不为严格单调时，情况复杂一些，但并无原 
则困难.我们不去考虑一般情况，而只注意一个特例 Y 二 X 2 .仍以 
/记 X 的概率密度.因 Y 非负，有 P ( 当.若 

0,则有 


P ( Y < y ) = P ( X 2 ^ y ) = P (- v ^< X < vG ) 

=^ fit)At 

J 一心 

对 y 求导数，得 Y 的密度函数 /( j ) 为 

Ky ) ^ 如― 1/2 [/( V ^) + /(— 7^)]，当: y >0 

而当时/(30=0.下面的特例很重娈. 
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例 4 . 5 若 X~iV( 0 ， l) ， 试求 y=X 2 的密度函数 . 

以 /U) = (v^r) — x 2 / 2 代人上式，得 
Uy) - (/^)—^― ，々，当 _y >0./(j^) = 0 当 _y <0 

(4,6) 

现在考虑多个变量的函数的情况，以两个为例.设的 
密度函数为 /( 心，工 2 ) ， Yi ， y 2 都是 UhD 的 函数： 

Yi - ^ i ( x 1 , x 2 ), y 2 - g 2 ( x u x 2 ) (4,7) 

要求 （ Yhyo 的概率密度函数/(&，力）.在此，我们要假定（4.7) 

是 一一 对应变换，因而有逆变换 

X! - h l (Y l ,Y 2 ),X 2 = h 2 (Y x ,Y 2 ) ( 4 . 8 ) 

又假定幻，幻都有一阶连续偏导数 . 这时，逆变换 （ 4 . 8 ) 的函数 
/^ ， / 2 2 也有一阶连续偏导数，且在 一一 对应变换的假定下，贾可比 


行列式 


不为 (K 


J(yuyi) 


dh x /dyi 3 hi/dy 2 

dh 2 /^y\ ^h 2 /d yi 


( 4 . 9 ) 


现在我们在 （ Yi ， Y 2 ) 的平面上任取一个区域 A . 在变换 
( 4 . 8 ) 之下，这区域变到 （ XhXj 平面上的区域 B. 就是说，事件 
KY! ， Y 2 )GAi 等于事件丨 . 考虑到 / 是 （ A ， X 2 ) 
的密度函数，有 


p((y u y 2 ) e a ) 二 p((x 1 ,x 2 ) e b) = JJ/(x 1 ,x 2 )dx 1 dx 2 

使用重积分变数代换的公式，在变换 （ 4 . 8 ) 之下，上式最右端一项 
的重积分变换为 


F(( Yi , y 2 ) ^ A) ^ fihxiyx^yj) yh 2 (yi ， y 2 )) 

JJ 

A 

w \J(yi^yi)\dyi(iy 2 ( 4 . 10 ) 

此式对 （ A ， Y 2 ) 平面上任何区域 A 都成立 . 于是，按定义 2 . 2 ( 见 
( 2 _ 5 ) 式）），即得 （ A ， Y 2 ) 的密度函数为 
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I(y\ ^yi) - 0^2) »^ 2 ( 3 , i ^2)) I J(y\ ^2) I 


(4.11) 


一个重要的特例是线性变换 

Y 1 — auXi + a 12 ^ 2 » ^2 = + a22 (4.12) 

假定变换的行列式 a 11 a 22 - <212^21^^0,则逆变换 （4.8) 存在且仍 
为线性 变换： 

Xl 二 bn Y x + b n Y 29 X 2 - b 2i Y x + b 22 Y 2 (4.13) 
此变换的贾可比行列式为 常数： 

= / 二 ^11^22 _ 心 12心21 = (^11^22 _ ^12«2 l ) 1 

按 (4.11) 式，得出 （ YhYj 的密度函数为 
^(^1.^2) = + ^12^2^21^1 + bny 2 ) I 611622 - ^12^21 I 

(4.14) 

例 4.6 再回过头来考虑例 3. 6.为与此处记号一致，把该例 
中的 i ? 和0分别记为。，丫^这时逆变换^別为 

Xi = y jC osy 2 ,x 2 - y^inY^ 


贾可比行列式为 

J ( yx ^ yi ) ^ 

因为的密度函数为 


COS 》2 

siny 2 


= y \ 

y [ COsy 2 


f ( x x , jc 2 ) 


2k 


exp 


2 


(x\ + x\) 


M x ] + xl = ylcos 2 y 2 + ^ jsin 2 v 2 : W ， 由公式 (4 , 11 ) ， 得 （) 


的概率密度函数为.变量范围为 0< M < m ，0< w < 

2; r . 在这个范围之外为 0. 这与例 3.6 中求出的一致. 

本例还提醒了我们一 点：必 须注意变换以后变量的范围.光从 
公式 (4.11) 上有时并不能看清这一点.在本例中，因为 y 2 ) 
是点的极坐标，其范围易于判定，在有些例子中，则需经过一定的 
判断.看下面的例子. 


例 4.7 设 ， X 2 独立，都服从指数分布 （1.20) ,其中 A -1. 
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而设 YeA + Xz ， 丫 2 = 1-乂 2 ，求（丫 1 ,丫 2 )的密度函数. 

用公式 (4. n ) 不难算出密度函数为 /( 力， 二士 e m 

在于 ：这个 表达式只在一定范围 S 内有效，在 B 外为 0. B 是什 
么？这就要考虑到0^，叉 2 )只在第一象限 A 内大于 0. A 的两条 
边，即两轴的正半部，分别相应于0^，^ 2 )平面上的直线 y !- y 2 
和 Vi = - Y 2 ( 见图2.10).另外，7 1 二叉 1 +叉 2 必大于0,7 1 必大 
于 Y 2 .故 （ 1^，¥ 2 )只能落在上述两条直线所夹出的包含 h 正半 
轴的那部分，即图 2.10 中标示的 S . 



图 2.10 


有时，我们所要求的只是一个函数 

~ (Xj , Xi ) 

的分布 .一 个办法是对任何、找出 I 在平面上对 

应的区域然后由 P( Yj < = 

JJ / Oi ，工 Jcb ^ cb ^ 找出 h 的分布•另一个办法是配上另一个函 

数 g2(X u X 2 ) ,^(Xy 9 X 2 )iU Yi ， Y 2 ) 成 一一 对应变换.然 

后按(4_11)找出 （ Wy 2 ) 的联合密度函数/(%，力）.最后， L 的 

roo 

密度函数由公式 j 」(％，力)办 2 给出（见 (2.9)) .后面将给出使 
用这个方法的重要例子. 

以上所说可完全平行地推广到 w 个变量的情 形：设 （；^，…， 
XJ 有密度函数 /( Xl ，…， a )， 而 
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Yi ^ ,X n ) ,i ^ 1〆*.，" 

构成 ( A ，…，到 （ Yi ，…， 八） 的一一对应变换，其逆变换为 

Xi ^ h t {Y x 

此变换的贾可比行列式为 


J(y\r-,y n ) 


… ， Y n ) , i 

=1 ，…， 77 

^h x ^y\ 

■ ■ ■ 

… dh ! /^y n 

• A ■ AAA 

d h n /^y\ 

\ 

■ ■ ■ ■ ■ 

… d h n /dy n 

VI ， …， ：0 

，…人 （: yi ， … 


则 （ Yi ，…，八）的密度函数为 

• U (:VI ，…， 

2.4.3 随机变置和的密度函数 

设（&，入 2 )的联合密度函数为 /( x ^ a ) ，要求 

y - X ! + x 2 

的密度函数. . 

一个办法是考虑事件 

i - IX! +X 2 <d 

它所对应的 （ XhXO 坐标平面上的集合 
B ， 就是图 2.11 中所示的直线 xi + = jy 

的下方那部分.按密度函数的定义有 

p ( y <^)= p ( x t + x 2 <^> 


，30) 


(4.15) 


^2 



( 弋， n) 


B 


f{oC\ ， : T2)dxid ： C2 


图 2.11 


将重积分化为累积分，先固定 A 对： c 2 积分，积分范围为到 
^ ~ *^1 ，如图所示.然后再对 XI 从- 00 到 00 积分.结果得 


P(Y^y) 


y- x 


f(jc\ ,x 2 )dx 2 ]dx 


对 y 求导数，即得 Y 的密度函数为 


l(y) = f ( 工 i，y — j：\)dxi 
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= f 〔 jc，y — x)dr (4.16) 

J — oo 

作变数代换 r 二 y - x (注意 y 是固定的），再把积分变量 t 换回到 
X ，也得到 

l ( y ) 二 f(y - j ： , x)dx (4.17) 

J — oo 

如果 X 1? X 2 独立，则 /(〜，:^:^/^:^^/^:^乂这时^：^〉* 
(4.17) 有形式 

iXy ) 二 - x)dx 

J — oo 


= fi(y - x ) f 2 ( x)dx (4.18) 

J — oo 

这个方法在数学上一点不足的地方是要通过在积分号下求导 
数.这在理论上是有条件的.另一个做法是配上另一个函数，例如 

2 = U 


Y = X { + X 29 Z = 


X , 


构成 UhA ) 到 （ Y ， Z ) 的一一对应变换.逆变换为 


Xi = Z , X 2 = Y ~ Z 

贾可比行列式为-1，绝对值为 1. 按公式(4.11)，得 （ Y ， Z ) 的联合 
密度函数为/<^，>-=).再依公式（2.9)，求得¥的密度函数 
/ b ) 仍为 (4.16) 式. 

例 4.8 设 X lt X 2 独立，分别服从正态分布和 
iv (内， 4) •求 y = x t + x 2 的密度函数. 


由假定，利用 (4.18) 的第一式，有 


l ( y ) 


1 

*oo 

■ 1 

((1 —户 i) 2 iy ~ x - pl 2 ) 2 V 

2na\(j2^ 

exp 

— oo 

-一 2 

[^ ^ J 


dx 


经过一些初等代数的运算，不难得到 

(x — fJi\) 2 /a\ + (jy - x — "2) 2/ ^2 

~ (<7i + ^i) -1 _ "1 _ p-i) 1 + {cuo — b) 2 


(4.19) 
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其中 


a = V ^1 + ^2 


b 


代入 (4. 19)，得 


戊 1 戊 2 


.2 




("1。「上 + (5 — ^ l )^2 


l(y) 二 ( 27 taia 2 y l exp 


(夕 —"1 一 P-i) 2 
2{ a \ + <72) 


__1 

e"2 


{ojc — b、_ 


dx 


注意 a，6 都与 x 无关，作变数代换？ = or + 6, 并利用 ~ e^ 2/Z dt 

J —oo 

二 V^( 见 （1.15) 式），即得 

i(y) — (\/ 27 c(ai + a \)) x 


exp - ~(y ~ fix - pi2 ) 2 /{ o \ + a \) (4.20) 

这正是正态分布 N (妁 +// 2 ，d + d) 的密度函数.由此可见，两个 
独立的正态变量的和仍服从正态分布，且有关的参数相加. 

有趣的是，这个事实的逆命题也成立 :如果 Y 服从正态分布， 
而 Y 表成两个独立随机变之和，则 Xj,X 2 必都服从正 
态分布.这个事实称为正态分布的“再生 性”： 一条蚯蚓砍成两段， 
仍各成一条蚯蚓，这称为蚯蚓的再 生性； 此处 亦然： 一个正态变量 
y 砍成独立的两段 :^，x 2 ( + x 2 )， 各段 x lt x 2 仍不失其 

正态性.这个深刻命题的证明超出了本书的范围. 

不难证明 ：即使 x w x 2 不独立，只要其联合分布为二维正态 

则 Y = X , + X 2 仍为 正态 ： Y 〜 N(w + 以， 
W + d 十 2 p 1； 7 2 ) .证明与本例相仿，细节留给读者， 

本例直接推广到 H 个变量的情 形：若 Xi ，…， X ” 相互独立， 
分别服从正态分布…， iv (/^，4)， 则& +… + 服 
从正态分布 AKa +…+…+ ( T $). 

证明很容易.以三个变量的情形为例.记 

Y = Xi + X 2 + X 3 = Z + X 3 ，Z = X 〗 十 x 2 
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按本例结果有 2〜1^(；^ + " 2 ,4 + 4).又按定下 3.3, 知 Z 与 X 3 
独立.对 Z 和乂 3 应用本例，即得 

Y ~ Z + X 3 — N(^! + "2 + M3^ a l + CT2 + ^ 3 ) 

在介绍下面这个重要例子之前，我们先要引进两个重要的特 
殊 函数： 

r 函数（读作 Gamma 函数） r ( x ): 通过积分 

r(x) - f°°e-V-M“:r >0 (4.21) 

Jo 

来定义.此积分在 x >0 时有意义. 

口 函数（读作 Beta 函数） 〆 x , y ): 通过积分 

P (: r ， y ) 二 t x ~ x {\ - t) y ~ l dt ,x > 0 ,y >0 (4.22) 


来定义.此积分在 ： c >0， y >0 时有意义. 

直接算出 r ( l ) 二 re^dt = 1，而在作变数代换 r = 后， 

Jo 

算出 


r(i/ 2 ) = 



— 1/2 ck 



u~ l (2udu) 


= 2 


e" w du 


e 


du 


令 z ^ u /乃， 并利用 （1.15) 式，得 


r(i/ 2 ) 




e 




v 


72 


n/ 2?r — V^TT 


r 函数有重要的递推 公式： 

r(x + 1 ) = xT { x ) 


(4.23) 


事实上， r(x + 1) 


作分部积分，有 




/* , 


e"^df 


r"d(e~ f ) =- 


m / 


X 


e 


l dt 


= xF ( x ) 

由算出的 r ( i ) 和 r ( i /2)， 可得出当 „ 为正整数时， r ( w ) 和 
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r ( n /2) 之值(后者当为奇数时，否则 n /2 为整 数）： 

厂 （”）二 U - \)\, r ( n / 2 ) = 1 • 3 • 5-(?1 -2)2—(“W 

(4.24) 


例如 

r(4) 二厂 (3 + 1) = 3r(3) 二 3 • 2r(2) = 3*2* 1 厂（ 1) 
二 3 • 2 • 1 二 3! 

r(7/2) =r(5/2 + 1) - (5/2)r(5/2) 

-(5/2)(3/2)r(3/2) 


= (5/2)(3/2)(l/2)r(l/2) = 1 • 3 • 5 • 2 - 3 v^r 
r 函数与 # 函数之间有重要的关 系式： 

二 r(x)r( y )/r(x + j；) (4.25) 

这个公式的证明见本章附录 /L 

由 r 函数的定义易 知:若 7 2 >0,则函数 

— ^—— e - T / V 71 - 2 )4，当 I > 0 
k n (x) = ^ 『 ( 寸 )^ n/2 (4.26) 

、0， 当 x <0 

是概率密度函数.实际上，由 A „( x ) 的定义知它非负.又(作变数代 
换 ： c ~ 2 t ) 


e -x/2 x (^2j/2 dj： = 2 n/z 


广 00 


e 


(”-2)/2士 



故知 々 n ( x〉dx = y ^„( x)dx — 1. 因而证明了它是密度函 

•/ •一 Oo ‘0 

数.这个密度函数在统计学上很重要且很有名，它称为“自由度^ 
的皮尔逊卡方密度”（相应的分布则称为卡方分布〉，常记为； 

K . 皮尔逊是英国统计学家，现代统计学的奠基人之一.在本书第 
五章中将涉及他的工作. 
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例 4.9 若 Xi ，…， X „ 相互独立，都服从正态分布 " AKOJT ， 
则 y = + … + x 2 „ 服从自由度 w 的卡方分布; c 2 „. 

从例 4 . 5 ,并注意 r ( l / 2 ) = v ^， 看出本例的结果当《 = 1 时 


成立.于是可用归纳法，设此结果当 n 改为 n - 1时成立.表 Y 为 
Z + X 2 „ ，其中 Z = + … + X 2 „_! ，则由归纳假设，知 Z 有密度函 

数匕^(: r ). 由例 4.5 知 X 2 „ 有密度 函数幻 U ) .再由定理 3. 3,知 
Z 与 Xi 独立.于是按公式 (4.18)( 用前一式），知 y 的密度函数为 




j —oo 


k n -i(x)k\(y — x)dx 


J o ^ 1 (xU 1 (y.-x)dx 


后一式是因为，和都只在 r >0 时才不为0,故有效 
的积分区间为以 （4.26) 中的表达式 （ rz 分别改为 n - 1 
和 1) 代入上式，得 

丄\ 一1 

2 2 ) e ' v/2 

• y x u ~ 3)/2 (y - x ) l/1 dx (4.27) 

J o 

在积分中作变数代换 x = >，得 

3)々（ ） -〗々如 

Jo 





， 2 


y 


(n-2)/2 


r 


n 


1 


2 




以此代入 (4.27)， 即得 / ( j ) 二 h ( y ) .从而证明了本例结果对 n 
也成立，这完成了归纳证明. 


、 常把这说成 X !，…，独立同分布并缩记为 iid . (independently identically dis - 
tributed )， 并说，…，有公共分布 N (0,1) .注意不要混淆“公共”分布和“联合”分 
布/整个这假定可简记为：&，… iid , 〜 iV (0， l ). 
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本例也解释了在定义卡方分布时提到的“自由度这个名 
词.因为 Y 表为 n 个独立变量&，…，尤 的 平方和，每个变量 I 
都能随意变化，可以说它有一个自由度，共有《个变量，因此有《 
个自由度.当然这个解释只在〃为正整数时才有效（注意 A „( x ) 
的定义中并不必须限制 H 为正整数，只要 n >0 就行）.实际上，自 
由度这个名词通常也只用在 n 为整数时. 


卡方分布有如下的重要 性质： 

1. 设独立，&〜则 & + A 〜必… 
证明可以直接利用和的密度公式 (4.18) 得到.更简便的是从 
卡方变量的表达式出发，设，…，+ „独立且都有分布 
N (0，1) .令 X ! = W + …+ Yi ， X 2 : C + 1 十…+ K + ri •按本 
例，有 

而 


Xl + x 2 - y ? + - + Yi +„ 

为+ 个标准正态变量的平方和.按本例其分布为 + „ ，明所 
欲证， 


2.若 X !，… ，尤 独立，且都服从指数分布(1.20)，则 

X = 2X (X { + …+ 


首先，由足的密度函数为（1.20)，知 2 A 弋的密度函数为 + 

(当 ： T >0. x <0 时为 0) •但在 (4.26) 中令《 =2,可知这正好是;^ 
的密度函数，因此 2 AX . •再因 X !，…，独立，利用刚才证明 
的性质，即得所要的结果 ." 


2.4.4 随机变置商的密度函数 

设 （ X 〗，：^) 有密度函数 /( Xl ，: r 2 ), Y = X 2 / Xl .要求 Y 的密 
度函数.为简单计，限制只取正值的情况. 

事件 iy < j 卜可写 为丨 因为 Xj > 
0.这相应于图 2.12 中所标出的区域通过化重积分为累积分， 
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图 2.12 


得到 

P ( y < v ) = f ( x x , x 1 ) dx x dx 1 


y 


f ( x \ , Xi ) dx2 


dx 


对 j 求导，得 Y 的密度函数为 


Uy) 


x \ f { x \ jX \ y ) da：i 


j 


(4.28) 

若 独立，则 f { x u x 2 )^ f x { x { )- 


/ 2 ( x 2 )， 而上式成为 

' oo 

l(y) = ^if\(j ： \)f2(jo\y)dj：i 
Jo 


(4.29) 


(4.28) 式也可以通过添加一个变换 2 = ；^ ，再运用公式 （4.〗1) 和 
(2.9) 得到，建议读者自己去完成.这个做法不须在积分号下求导 
数. 

下面考察两个在统计学上十分重要的例子. 

例 4.10 设 Xi ， X 2 独立， X 广;^ 独立， X 2 〜 N (0，1)， 而 Y 

= 求 Y 的密度函数. 

记 Z 二先要求出 Z 的密度函数 gU ). 有 

P(Z^z) =pQ~X x / n < z) - P(X t < nz 2 ) 

卜 2 

= r)d:r 

J 0 

两边对 z 求导，得 z 的密度函数为 

g(z) ~ 2 nzk n ( nz 2 ) 


其次，以 匕 （77 x?) 和/ 2 (了2) = \^27r 应用公 

式(4.29)，得 y 的密度函数，记之为 G(y)， 等于 

t n (y) - \flrc 1 (2 n/2 r(?i/2))~ l 2?ix]e~^ nj ： ^ / 2 (?7x }) {n ~ 2)/2 

Jo 
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• e - ( 丄 i， )2/2 dr 


v 


T^\l n/2 r{n /2))~ x 2n n/2 


J 


0 


xiexp 


( nx \ + ^ iy 2 ) 


2 


dx 


( 430 ) 


作变数代换 u 二彳2/(7,十 ， 上面的积分变为 

n \ ( n + 1) ^2 roo 

z ] 丨 e 、 ( "- 1)/2 ck 


2 


2 \ n y 

2 \( n ^~\)/2 

，？ + y 




r 


n 十 1 


以此代入 (4.30)， 并略加整理，即得的密度函数 
为 

^n±l 

2 (4.31) 


n(y) 


r((?i + 1)/2) 


y 


Vn 7 tr ( n / 2 ) 


n 


这个密度函数称为“自由度 72 的 f 分布”的密度函数，常简记 
为 Y 〜这个分布是英国统计学家 W. 哥色特在1908年以 “stu¬ 
dent” 的笔名首次发表的.它是数理统计学中最重要的分布之一， 
今后我们将见到这个分布在统计学上的许多应用. 

这个密度函数关于原点对称，其图形与正态 /V(0，1) 的密度 
函数的图形相似，以后我们将见到（见第三章 3.4 节），当自由度 n 
很大时， t 分布确实接近于标准正态分布. 

例 4.11 设 X lf X 2 独立， Xi 〜; ^， X 2 而⑺一 1 

X 2 / n - x X x .^ Y 的密度函数， 

因为 X !, X 2 独立，故7厂 1 &和 m - l X 2 也独立.由 X l - x 2 „ 
和 X 2 易求出 tz — 1 % 和 m -' X 2 的密度函数分别为 
UxOW mKm : c 2 ) •以此代人(4.29)，得 Y 的密度函数，记之为 
/ WI »(* y ) (注意川在前， m 是分子入2的自由度），等于 


fmn(y) 


mn 


X\k n {nx\)k m ( mjc\y )dxj 


=mn 


2 m/1 r 
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x l e~^(?ia: l ) n ^~ l e-^ z ^(mx ] y) n!/2 - l dx 




2 


n )/2 


nf)r in 


-1 


rn m/2 n n/2 y m/2 ~ l 


(my+n)x l /2 {m + n)/2-\ 

^ X 1 


cJLti 


作变数代换 f = ( mjy + 72 )*^/2, 上式的积分化为 

2 {m ^ n)/1 {rny + 72) _u + n) 々 f°VV … )/2_1 & 

J 0 


2 {m + nVz (my + n)~ (m ^ n)/2 r 


m 十 


2 


以此代入上式，得 


r 


m 十 n 


fmn(y) = 


m m/2 n n/l 


2 


rif r 号 


y m/2 ~ i (my + n) 


- (m + n)/2 


(4.32) 


: v > 0 

当 3<0 时 / 胃 （3；)=0,因为 Y 只取正值. 

这个分布称为“自由度 m,n 的 F 分布”（注意分子的自由度 
在前）.它也是数理统计学上的一个重要分布，有很多应用，常记为 

m 

人们有时把： t 2 ， r 和尸这三个分布合称为“统计上的三大分 
布”，就是因为它们在统计学中有广泛的应用.这些应用的相当大 
一部分根由，在于以下的几条重要性质.它们的证明可参见本章附 
录 B. 

r 设&，…， 总独立 同分布，有公共的正态分布 


n 


iV(" ， a 2 )_ i2X = (X, + … +Xj/n ， S 2 = 2(X, ~X) 2 /(n - 


1) .则 


n 


(n - \)S 2 /a 2 = 2d -X) 2 /a 2 


l 2 n~\ 


(4.33) 


2° 设 & ，… ，尤的 假定同 r ， 则 

^Tn(X - fi)/S - 


i - « — 


n -1 


(4.34) 
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3° 设& A ，…，独立， X, 各有分布 Nku?)， 
各有分布 N(" 2 ,4)， 则 

m j n _ 

a. [ 公 （Yj — Y) 2 /{o 2 {m - 1))] /[ 2 (X — X) 2 /(a\{n - 1))_ 

j - 1 ?'= 1 

〜 F rn -\ y n-\ (4.35) 

b. 若 4 = j . ， 则 

」 nmin + m = Y ) _ ( }] 

v n + m L 

/ n m 

[2(^- x ) 2 + S(y ; - y) 2 ] - t n , m - 2 (4.36) 

i - 1 j = 1 

附 录 


A . 公式 (4.25) 的证明 

由等式 

I" u x+y ~ l v x ~ l e~ u{l + v) d 


e~ u u y ~ l (uv) x ~ l e uu udv 
^ 0 


出发，作变数代换 ut ;， 知右边的积分等于 ⑴即 

ru ). 于是 

°° u^^v^e-^^dv = e~ u u y ~ l r(x) 

Jo 

两边对 w 从 0 到积分，得 


r(x)r(y) 


'OO r poo 

U 

J o L J o 


■ 

x + ^l e - W (l^) dM v x-l dv 


对里面的积分作变数代换 f 二 w ( 1 + T ；) ，有 


(1 + v y u+y) e _f 〆 ” 一 1 山 

Jo 

(i + v)~ ix+y) r(x + 3^) 


代入上式得 
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"oo 

r(x)r(y) - r(x + y ) + vy (x+y) dv (i) 

^ 0 

作变数代换 r = t /( l + w ). 当 U 由 0 变到 oo 时， f 由 0 变到 1 .又 

+ vy (x ^ y) 

= 0/(1 + ”）） x —Hi + v)~ (y+l) 

- t^ l (i - t) y+l 

因而 v = t/(l — t )， 有 db = (1 - ?) _2 ck •故 

°V 一 Hi + v)' (x+y) dv = fV —i(l - ty^dt = B{j ： y y)(2) 

Jo Jo 

由（1)，（2)两式即得(4.25). 

B . (4.33) — (4_36) 的证明 

这个证明要求读者对正交方阵有初步知识.先证明下面的预 
备 事实： 

引理设 X 〗 ， X 2 , …， iid ， 〜 N (" ， a 2 ). 记 X = X； /n . 
则 

a. \pn (X — ") 々〜 N(0,1), 

b . SCX , -!)V 〜 x i— u 

i - 1 

c . X 与 5] (兄 - X ) 2 独立. 

1 

证找一个 n 阶正交方阵 A ， 其第一行各元都是 1// G . 作正 
交变换 

:二 A : 

由于 a 为正交变换，它不改变平方和 ， gp Jx ? 二 Jy ? .又因 

__ j — 1 

正交方阵的行列式为1，根据公式(4.15)，注意到（兄 1 ，...，乂„)的 
密度函数为 
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() 1 eXp 


n 


2 a z 1 


2 2 _ ") 2 


(v / Z^(r) _rt exp 


n 


n 


2a 


2 


(^x 2 i ~ 2+ np 1 ) 


以及 Dx, (这是因为 A 的第一行各元都是 1/vG， 因而 

M = Ui+ …+ 得知 （Y! ，…， D 的密度函数为 

「 1 打 ] 

(/27ra)' w exp ^ ( S _ 2 /^ ^iy\ + W 2 ) 

L Z<7 i = 1 - 

= {^/ lKa )~ x ^ iy ^ rnfl)2/la2 - 

因此， （L ，…， Y„) 的密度可分解为 TZ 个函数的乘积，每个函数只 
依赖一个变量.据定理3.2,即知 y:，Y 2 ，…， Y„ 独立，且 

K 〜 N(/^"，a 2 )，Y! ■〜 _，<j 2 )，i = 2,…， n (3) 

再据定理3.3, A 与 Yi + -+ Y 2 „ 独立，但 

Sr ? = llY 2 i - Y \ 

i — 2 i — I 

-SX? - (Sl) 2 /n 二 i(X t ~X ) 2 ⑷ 

i = 1 i - 1 1 = 1 

而这证明了 c.a 和 b 由 （3) ， （4) 及卡方分布的定义立 
即得出.引理证毕. 

有了这个引理就不难得岀 （4.33)-(4.36) .事实上， （4.33) 就 
是这引理的 b. 为证（4.34)，注意^(又-"）47服从正态分布 

iV(0，l)， 由引理的 b,S/a 的分布与 -1) 的分布相同. 

又按引理的 A 与 S 独立.于是由 f 分布的定义即得 
(4.34). (4.35) 由引理的 b 及 F 分布的定义得出. 


(4.36) 的证明略复杂一些.暂记= 2(^ - X ) 2 , Z 2 = 

i - 1 
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m 

刃（乃 - Y ) 2 . 据引理的 (:^与心 独立，7与2 2 独立，又因&， 

i ~ 1 

…，义， L ， …， L 全体独立，故四者独立.因为 x 〜 
N ( fi Xj a 2 / n) y Y — N (" 2 ， cr 2 / m ) ， tr 2 为 erf 和4的公共值，据例 

4.8,知 X - Y 〜 N(/xi - fi 2 , a 2 /n + < j 2 / m ) ，因而丄 [(X 

~ y ) - ("i - M )] 〜 N (0，1) .又据（4_33)，有 A / a 2 〜；^ _卜 
z 2 /( t 2 〜 zi-i ， 因 z i,z 2 独立，按卡方分布的性质，有 （a + z 2 ) / 
0 2 - l 2 n + m - 2 ^ 因四者独立，按第二章定理 3. 3,知 

= V^ir +[(叉 - 〒) - (" n )] 与 

「 1 nl/2 

叫 -2 V (Zl + Z2) ] 二者独立 

按 z 分布的定义知，.这就证明了 （4.36). 

可以注意一下这些结果中的自由度数目.在 (4. 33 )， J { X { - 

X ) 2 为” 个量的平方和，为何自由度只有”-1?这是因为，& - 
X ，…， - X 这”个量并不能自由变化，而是受到一个约束，即 

n 

- X ) = 0 •这使 它的自由度少了一个 .（4.36) 中的自由度 

I = 2 

是 w + m -2 也一样地解释：一共有 w + m 个量足 _ X(f = 1，…， 
”）和 - Y(j = 1，…， m ) 取平方和.它们受到两个结束，即 

S (足 ~ X ) = o ,2 (K - Y ) = 0•少了两个自由度，故自由度 
不为 n + m 而为 n + m - 2. 

在第四章例 3.2 中，将给自由度这个概念以另一个解 释不言 
而喻，不同的解释只是形式上的差别，实质并无不同. 

习 题 

1. 某事件 A 在一次试验中发生的概率为1/2 •将试 验独立地重复„次. 
证明： 发生偶数次”的槪率为1/2,不论 „ 如何 (0 算偶数）. 
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2. 在上题中，若 A 在一次试验中发生的概率为/>，则 “ A 发生偶数次”的 

概率为= * y[l + (1 _2户) 叫 .用归纳法. 

3. 两人分别各拿一个均匀铜板投掷 n 次(每次掷出正、反面的概率都是 
1/2) .问 ：“ 两个掷出的正面数相同”这事件的概率是多少？ 

4. 甲、乙二人赌博.每局甲胜的概率为 A 乙胜的概率为 q = l - ，约 
定: 赌到有人胜满 a 局为止，到这时即算他获胜 . U ) 求甲胜的概率 .（ b ) 若 p 
-1/2,用 （ a 〉 的结果以及用直接推理，证明甲胜的概率为 1/2. 

5. 以 6 U ; n ，/>) 记二项分布概率 —/>)«_ 々.证 明 ：（ a ) 若 p < l / 

U + 1)， 则当是增加时办 U ; n ， p ) 非增 .（ b ) 若/ >>1 — l / u 十1)，则当走增加 
时非降_ ( c ) 若 1 /U + 1)<々<1一 1 /U 十1)，则当々增加时， 
b(k ; n , /0先增后降.求使 b { k \ n ，/ 3) 达到最大的, 

6.10 个球随机地放进12个盒子中，问 .•“ 空盒（不含球的盒〉数目为10” 
这事件的概率是多少？ 

7.设随机变量 X 服从二项分布 BU ，/>)，6 为小于 n 昀非负整数，记/ 
( p )-= P ( X < k ). 

( a ) 用直观说理的方法 指明： /(/>) 随 p 增加而下降. 

( b ) 用概率方法证明 ( a ) 中的结果. 

( c ) 建立恒等式 


f(p) = 


n\ n^P 

k\{n - k - 1)!Jo 


^( 1-0 





从而用分析方法证明了 ( a ) 中之结论. 

8. 设随机变量 X 1? X 2 独立同分布，而 X x + X 2 服从二项分布 B ( 2 , p ). 

则 X lt X 2 都服从二项分布 (即 P ( X l ^ l ) = p f p ( X 1 ^0)^ l ~ p) v 

若只假定 X U X 2 独立且都只取 0，1 为值，这结论也对， 

9. 在超几何分布 （1.10) 中固定 n ， m ,令 iV — oo ， M —" oo 但 M / N — p，Q 

证明： （1.10) 以 々 （tw ; n ,/>) 为 极限. 

10. 设随机变量 X 服从波哇松分布 P (； l ).々 为正整数， 

( a ) 用概率方法证明:戶(叉<幻随; I 增加而下降. 

( b ) 建立恒等式 


P(X^k) - 






A 


从而用分析方法证明 ( a ) 中之结论. 
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11 . 记九（0=^*々！.证明 ： （幻若久<1，则九 U ) 随是增加而非增. 
( b ) 若 A >1， 则九 U ) 先增后降，找出使九 U ) 达到最大的是. 

12. 有一个大试验由两个独立的小试验构成.在第一个小试验中，观察 
某事件 A 是否发生， A 发生的概率为/) 1; 在第二个小试验中，观察某事件 B 
是否发生， B 发生的概率为外.故这个大试验有4个可能结果 ：（ A ， B )， 
( X ，五）， U ，互），(又， B ). 把这大试验重复 iV 次.记 

£i - l ( A , B ),( A , B ) 总共发生 n 次 I 

£ 2 = |(( A ， B ) 发生々次 | 

计算条件概率汽£ 2 |£； 1 )，证明它等于 6 (々 ； „，/ ) )，其中 / > = p 1 ( l ~ p 2 )/[pi 
(1 -九 ） + (1 - Px ) Pi \ ，并用直接方法(不通过按条件概率公式计算）证明这 
个结果. 

13. 设：^，…，独立同分布，其公共分布为几何分布 （1.12) .用归纳法 
证明： + 〜 + X r 服从负二项分布 （1.11) .又： 对这个结果作一直观上的解 
释，因而得出一简单证法， 

14- 在一串独立试验中观察某事件 A 是否发生，每次 A 发生的概率都 
是 /) .有以下两个概率：（1)九=做 〖十 r 次试验, A 出现 r 次的概率.（2)/> 2 = 
做试验直到 A 出现 r ■次为止，到此时 A 有纟次不出现的概率.二者都是做《 
+ r 次而 A 出现 r 次,但总有.证明这一事实并给一解释. 

15. 先观察一个服从波哇松分布 PU ) 的随机变量之值然后做 X 次 
独立试验，在每次试验中某事件 A 发生的概率为/>.以 Y 记在这 X 次试验中 
^发生的次数， 证明： Y 服从波哇松分布 

16. 设随机变量 X ， Y 独立， X 有概率密度 /( a ；), 而 Y 为离散型，只取 
两个值 q 和 a 2 , 概率分别为灼和/? 2 •证 明: X + Y 有概率密度 々（ x ): 

D = / > i/(x - a x ) + pifix - a 2 ) 

把这个结果推广到 Y 取任意有限个值以至无限个值（但仍为离散型）的情 
况. 


17•设 X ， Y 独立，各有概率密度函数/( I )和 gG )， 且 X 只取大于0 
的值.用以下两种方法计算 XY 的概率密度，并证明结果 一致： 

( a ) 利用变换 XY , W = X . 

( b ) 把 XY 表为 Y / X - 1 . 先算出 X — 1 的密度，再用商的密度公式 
(4.29). 

18. 设 X ， Y 独立， X 有概率密度 /( x ), Y 为离散型，其分 布为. 
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P(X = a t ) - Pi，i = 1 ， 2, A >(M = 1 ， 2,… 

证 明：若 ，…都不为0,则有密度函数 

oo 

h(x) = X ) Pi ^ a i I 1 

i = \ 

若 q ， a 2 ，…中有为 0 的，则 XY 没有概率密度函数. 

19.设 Y 为只取正值的随机变量，且 logY 服从正态分布 NU ， cr 2 ). 求 
y 的密度函数 （ y 的分布称为对数正态分布）. 


20. 设X服从自由度为 n 的，分布，而 Y^X/Va + X 2 , 其中 a >0 为 
常数，试求 y 的密度函数. 

21. 设入〜 iV(0，l)，Y = cosX，* F 的密度函数. 

22. 设 X u …， X n 独立同分布，&有分布函数 F(x) 和密度函数 f ( x ). 
记 

Y - max(X t ,*** ,X„),Z = minCXt，*** , X n ) 

证明： Y，Z 分别有概率密度函数 nF^UX/U) 和 n [ l ~ F ( x )] n - l ' f ( x ). 

23. 续上题，若 F(X) 为[0，幻上的均匀分布（6>>0为常数）.用上题结果 
证明』 -maxd， …， X„〉 与 mind ，…， X n ) 的分布相同，并从对称的观点 
对这个结果作一直观的解释. 

24. 设 X^X 2 独立同分布，其公共密度为 

t \ (e~ x ,x > 0 
fix ) - 

0， x <0 

记 A = min(X lT X 2 ),y l - max( U 2 ) — minUi ， X 2 ) •证明 •• Y! 与 Y 2 独 
立， L 的分布与 &/2 的分布同， Y 2 的分布与 Xi 同（直接计算概率 P(y 2 

<u ， y 2 ^^))* 

25. 一大批元件其寿命服从指数分布 （1.21) .固定一个时间 T>0 .让一 
个元件从时刻0开始工作.每当这元件坏了马上用一个新的替换之.以X记 
到时刻: T 为止的替换次数. 证明： X服从波哇松分布 P(AT) P ( X = n ) = 
e~ XTn /nl (用归纳法，详见 提示乂 

26. 证明 F m , n (a) = F rt(ffl (l-a ),0< a<L 

27. 设（X, 10服从二维正态分布〜(^，々，‘(^，".证明：必存在常数 

△，使 X + 与叉-67独立. 

28. 设 (X，Y) 有密度函数 

/( u ) = jrr-^T?’ 当 ^ + 抑 

、0， 当 X 2 + > 1 
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( a ) 求出常数 c . Ob ) 算出 X ， y 的边缘分布密度，并证明 X , Y 不 独立. 

29. 证明: 对任何自然数及0<«<1，有 

kF ktn ( a ) > F ltn ( a ) 

(实际成立严格不等号）. 

30. 设 X ， Y 独立，都服从标准正态分布 1 V (0，1)， 以 /(: r ，： y ) 记（ X ， Y ) 

的联合密度函数，证明 ：函数 

/ 、 f ( x , y ) + xy /100, 当 + 

心1 /( 〜， 

是二维概率密度函数.若随机向量 （ c ;， 有密度函数 g ( u )， 证明： t/， V 
都服从标准正态分布 iv (0， l )， 但 （ t /， V )不服从二维正态 分布： 

本例说明.•由各分量为正态推不出联合分布为正态. 
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第三章随机变量的数字特征 

在前章中，我们较仔细地讨论了随机变量的概率分布，这种分 
• 布是随机变量的概率性质最完整的刻画.而随机变量的数字特征， 
则是某些由随机变量的分布所决定的常数，它刻画了随机变量(或 
者说，刻画了其分布）的某一方面的性质. 

例如，考虑某种大批生产的元件的寿命.如果知道了它的概率 
分布,就可以知道寿命在任一指定界限内的元件百分率有多少，这 
对该种元件寿命状况提供了一幅完整的图景.如下文将指出的，根 
据这一分布就可以算出元件的平均寿命 w ， m 这个数虽则不能对 
寿命状况提供一个完整的刻画，但却在一个重要方面，且往往是人 
们最为关心的一个方面，刻画了元件寿命的状况，因而在应用上有 
极重要的意义.类似的情况很多，比如我们在了解某一行业工人的 
经济状况时，首先关心的恐怕会是其平均收入，这给了我们一个总 
的印象.至于收入的分布状况，除非为了特殊的研究目的，倒反而 
不一定是最重要的. 

另一类重要的数字特征，是衡量一个随机变量（或其分布）取 
值的散布程度.例如，两个行业工人的平均收人大体相近，但一个 
行业中收入分配较 平均： 大多数人的收人都在平均值上下不远处， 
其“散布”小 •，另 一 个行业则相反 :其收 人远离平均值者甚多，散布 
较大，这二者的实际意义当然很不同.又如生产同一产品的两个工 
厂，各自的产品平均说来都能达到规格要求，但一个厂波动小，较 
为稳定，另一个厂则波动大，有时质量超标准，有时则低于标准不 
少，这二者的实际后果当然也不同. 

上面论及的平均值和散布度，是刻画随机变量性质的两类最 
重要的数字特征.对多维变量而言，则还有一类刻画各分量之间的 
关系的数字特征*在本章中，我们将就以上各类数字特征中，举其 
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最重要者进行讨论. 


3.1 数学期望（均值）与中位数 


要说明这个名称的来由，让我们回到第一章的例 1.1. 甲乙二 
人赌技相同，各出赌金100元，约定先胜三局者为胜，取得全部 
200元.现在甲胜2局乙胜1局的情况下中止，问赌本该如何分? 
在那里我们已算出，如果继续赌下去而不中止，则甲有3/4的机会 
(概率)取胜，而乙胜的机会为1/4.所以，在甲胜2局乙胜1局这 
个情况下，甲能“期望”得到的数目，应当确定为 

200 x 音 + 0 x j = 150( 元） 

而乙能“期望”得到的数目，则为 

200 x ^ + 0 x - 50( 元） 

如果引进一个随机变量 X，X 等于在上述局面（甲2胜乙1胜）之 
下，继续赌下去甲的最终所得，则 X 有两个可能值:200和0,其概 
率分别为3/4和1/4.而甲的期望所得，即 X 的“期望”值，即等于 

X 的可能值与其概率之积的累加 
这就是“数学期望”(简称期望）这个名词的由来.这个名词源出赌 
博，听起来不大通俗化或形象易懂，本不是一个很恰当的命名，但 
它在概率论中已源远流长获得大家公认，也就站住了脚根.另一个 
名词“均值”形象易懂，也很常用，将在下文解释. 

3.1.1 数学期望的定义 

先考虑一个最简单的情况. 

定义 1.1 设随机变量 X 只取有限个可能值^，…，.其概 
率分布为 = = 灼，纟=1，…，饥.则 X 的数学期望，记为 
E ( xy 或 EX ， 定义为 


* E 是期望 Expectation 的缩写 , 
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E ( X ) = a x p x + a 2 pz + (1.1) 

名词的来由已如前述.数学期望也常称为“均值”，即“随机变 
量取值的平均值”之意，当然这个平均，是指以概率为权的加权平 
均. 

利用概率的统计定义，容易给均值这个名词一个自然的解释, 
假定把试验重复 N 次，每次把 X 取的值记下来，设在这 IV 次中， 
有乂次取 ai ， N 2 次取 a 2 , …， iV m 次取、 .则这 N 次试验中 X 
总共取值为 qNi + a 2 iV 2 +…+ ，而平均每次试验中 X 取 
值，记为尤，等于 

X — (aiNi + CI2N2 + …+ a m N m )/N 

— aiiNi^N) + ai(Ni/N) 4- •** + a m (A/ m /N) 

Ni / N 是事件 = ^ .丨在这 77 次试验中的频率.按概率的统计定 

义（见第一章，: L 1 节），当 iV 很大时 ， N t / N 应很接近九.因此 ，X 
应接近于 （1.1) 式右边的量，就是说， X 的数学期望 £( X ) 不是别 
的，正是在大量次数试验之下， X 在各次试验中取值的平均， 

很自然地，如果 X 为离散型变量，取无穷个值 ，…， 而 
概率分布为 = =1，2,…，则我们仿照（1.1)，而把 

X 的数学期望 E ( X ) 定义为级数 之和： 

oo 

E ( X ) = S a lPl (1.2) 

i - 1 

但当然，必须级数收敛才行，实际上我们要求更多，要求这个级数 
绝对收敛： 

定义 1.2 如果 

oo 

S \ a i\pi < 00 (1.3) 

^1 

则称 （1.2) 式右边的级数之和为久的数学 期望. 

为 什么不 就要求 (1.2) 右边收敛而必须要求 （1.3)? 这就涉及 
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级数理论中的一个 现象： 如果某个级数，例如 S CliPi ，只是收敛 

i -\ 

00 

(称为条件收敛），而其绝对值构成的级数 S UJa ，并不收敛， 

i— 1 

则将这级数各项次序改排以后，可以使它变得不收敛，或者使它收 
敛而其和等于事先任意指定之值.这就意味着 （1.2) 右边的和存在 
与否，等于多少，与随机变量 X 所取之值的排列次序有关，而 
£( X ) 作为刻画 X 的某种特性的数值，有其客观意义，不应与其值 
的人为排列次序有关. 

在连续型随机变量的情况，以积分代替求和，而得到数学期望 
的定义： 

定义 1.3 设 X 有概率密度函数/( I ).如果 

■'oo 

I x \ f ( x)dx < 00 (1.4) 

j —00 

则称 

E ( X ) = r °° x /( x)dx (1.5) 

‘ 一 oo 

为 X 的数学期望. 

这个定义可以用离散化的方式 
来加以解释.如图3.1，在 X 轴上用 
密集的点列把： T 轴分成很多小 
区间，长为 x i + i - xi = Ax ,. 当 X 取 
^ 值于区间 [ A，A + 1 ) 内时，可近似地 
认为其值就是 x t ■.按密度函数的定 
图 3 .1 义， X 取上述区间内之值的概率，即 

图中斜线标出部分的面积，近似地为 
/( xjA ^ .用这个方式，我们把原来的连续型随机变量 X 近似地 
离散化为一个取无穷个值的离散型变量 X ' t 的分布为 
尸(疒=々)〜 / UjAr — 按定义1.2,有 
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随着区间 Axi 愈分愈小， Y 愈来愈接近 X ,而上式右端之和也愈 
来愈接近于 （1.5) 式右边的积分，这样就得出定义 1.3 •至于要求 
积分绝对收敛即 （1.4) 式，其原因与定义 1.2 的情况有所不同，在 


此不能细论了. 


例 1.1 设 X 服从波哇松分布 P ( A ) (见第二章例1.2)，则 


E ( X )= E 


0 


i 今 e- A 

I : 


oc 


Ae-S 




一 i 


(i -D! 


OO i 

= Ae" A S n * = Ae ' A e A - A (1,6) 

1:0 I • 

这、解释了波哇松分布 P ( A ) 中参数 A 的意义，拿第二章例 1.2 的 
情况来说， A 就是在所指定的时间段中发生事故的平均次数. 

例 1.2 设 X 服从负二项分布（见第二章例 1.5 的 （1.11) 
式），则 

E(X) = p r ^4 l + r ~ ^(l - py (1.7) 

* = o \ r - 1 / 

为求这个和，我们要用到在第二章例 1.5 中指出过的负指数二项 
展开式 

(卜十= E (…；卞. 

i-o \ r ~ 1 / 

两边对 X 求导，得 

r ( l - 2屮十^ 1 )广 1 

f-o V r - 1 / 

在上式中令 X = 1 -声，然后两边同乘1 - f 得到 

S*( z + r 1 Mo - py ^ rp~ {r+]) d - p) 

r =o \ r ~ 1 / 

而 

E(X) = p r • r/T( r+1 )(l ~ p) ~ r(l — p)/p (1.8) 
p 愈小，则此值愈大，这是自 然的: 若事件 A 的概率很小，则等 
待它出现 r 次的平均时间也就愈长，当 r = l 时，得到几何分布 
(第二章(2.12)式)的期望为（1-/0今. 
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例 1.3 若 X 服从 [ a ，6]区间的均匀分布(第二章例1.9)，则 

1 , 1 

E ( X ) = T - xdx = ~^ r(a + b ) (1.9) 

0 — dJ a 2 

即期望为区间中点，这在直观上很显然. 

例 1.4 若 X 服从指数分布(第二章例1.7，（1.20)式），则 

E(X) = A xe~' u dx = A" 1 xeT x dx — A' 1 T(2) = A^ 1 

Jo Jo 



1 f 00 2 1 "*oo 2 

="e— f ^dt + a — —— 1 te l a At 

v 2tt j ~°° v 2 tt 」- 00 

上式右边第一项为 p ，第二项为0.因此 

E ( X ) = p (1.11) 

这样，我们得到了正态分布 iy ("， a 2 ) 中两个参数之一的"的解 
释# 就是均值，这一点从直观上看很清楚，因为 N ("， a 2 ) 的密度 
函数关于 P 点对称(见第二章图 2.2 b )， 其均值自应在这个点. 

因为数学期望是由随机变量的分布完全决定的，故我们可以 
而且常常说某分布 F 的期望是多少，某密度/的期望是多少等, 
期望是通过概率分布而决定这个事实，可能会被理解 为：在 任何应 
用的场合，当谈到某变量 X 的期望时，必须知道其分布，这话不完 
全确切.在有些应用问题中，人们难于决定有关变量的分布如何, 
甚至也难于对之提出某种合理的假定，但有相当的根据(经验的或 
理论的)对期望值提出一些假定甚至有不少了解.例如，我们可能 
比较确切地知道某行业工人的平均工资，而对工资的分布情况并 
不很清楚 •另外 ，当需要通过观察或试验取得数据以进行估计时， 
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去估计一变量的期望，要比去估计其分布容易且更确切，因为期望 
只是一个数而分布（或密度）是一个函数.以上所说对其他的数字 
特征也成立.在本书后面讲到数理统计学时将更明白这一点. 

3.1.2 数学期望的性质 

数学期望之所以在理论和应用上都极为重要，除了它本身的 
含义(作为变量平均取值之刻画）外，还有一个原因，即它具有一些 
良好的性质，这些性质使得它在数学上很方便.本段就是讨论这个 
问题， 

定理 1.1 若干个随机变量之和的期望，等于各变量的期望 
之和，即 

E ( X x + + …+ 兄 ） = EiXO + £( X 2 ) + …+ E ( X n ) 

4 

(1.12) 

当然，这里要假定各变量&的期望都存在. 

证 先就 n =2的情况来证，若入为离散型,分别以 Gl ， 
心， …和 6!，心 ，…记 &和 X 2 的一切可能值，而记其分布为 

P ( X \ = , X -2 = bj ) — Pij ， i，j = 1，2,… (1.13) 

当 X l = a iJ X 2 ^ b J 时，有 A + + h j 

E ( X l + X 2 ) = 2(屮 + b^pij ^ Yj a iPij + 2办為_ 

“J i fj 

(1.14) 

先看第一项，据第二章 (2.8) 式，有 

P ( X x = a { ) = Y^Pij 
所以，按定义 1 . 2 , 有 】 

= ^ciiPiXi = a { ) = E ( X x ) 

同理， （1.14) 右边第二 g 为 £( X 2 ) .这证明了所要结果. 

若(&，&)为连续型，以/(力，:^)记其联合密度，按第二章 

(4.16) 式，知 & + 的密度函数为 P ° f ( x . y ~ x)Ax . 

J 一 oo 
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故按定义 1.3, 有 


*oo roo roo 

£(Xi + X 2 ) yl(y)dy = yfi^^y - x)dxdy 

m) 一 oo J 一 oo *) 一 oo 


，oo 

: y/ ( 工， 

oo 


) d > )dx 


在里面那个积分作变数代换 y = x + t,n 

oo oo 

r% 广 

E(X\ + X2) = (x + t )/(jo , t )dxd? 

V % 


OO OO OO OO 

a:f(x 9 t)dxdt + tf(x , t)dxdt 

V V V % 


(1.15) 


按第二章 (2.9) 式，知 f °° / U ， Ock 就是 & 的密度函数.所以， 

*/ — - oo 


(1.15) 右边第一个积分等于 


C ，oo V roo 

fix 9 t)dt jdj ： = xfi(x)djc = E(Xi) 

J —oo / J —00 


同理证明第二个积分为 £( X 2 )， 于是证得了所要的结果. 

一 般情况可用归纳的方式得到.例如，记 + ，有 
E(X l + X 2 + X 3 ) 二 E(Y + X 3 ) = E(Y) +■ E(X 3 ) 

=E(X 1 ) + E(X 2 )^E(X 3 ) 

等等.定理 1.1 证毕. 

定理 1.2 若干个独立随机变量之积的期望，等于各变量的 
期望 之积： 


= E(X 1 )E(X 2 )-E(X n ) 


当然，这里也要假定各变量汊的期望都存在. 

证 与定理 1.1 相似，只须对 n =2的情况证明即可.先设 
都为离散型，其分布为 （1.13). 由独立性假定知 PiJ = 
P(X' = ai)P(X 2 : bj). 

因为当― a ( -, X2 — bj 时有 XiX2 = ，故 
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E(XiX2) — ^^iCLibjp.i = ，S ^]a i bjP(X] — a{)P(X2 — bj) 

ifj i >j 

二 - a i )^ b J P ( X 2 - bj ) 

» n 

* } 

= E ( X 1 ) E ( X 2 ) 

如所欲证.若连续型，则因独立性，其联合密度 fUu 
Q ) 等于各分量密度/“^^与 /2( X 2 ) 之积，故 

oo 

E ( XiX 2 ) = xiX 2 f ( xi ， X 2) dxidx 2 

争 oo 

’oo poo 

= xifiix^dxx X 2 /2(X2)dLr 2 

J — oo J — oo 

= E ( X x ) E ( X 2 ) 

细心的读者可能会注意到，在后一段证明中我们是从公式 

oo 

E ( XiX 2) - : ClX 2,( 工 1，工 2) d 工 ldx 2 (1.16) 

— oo 

出发，而这公式并非直接从期望的定义而来，它也需要证明.因此， 
更严格的证法应如定理 1.1 那样，先推导出 XjX 2 的密度 I 计算 

00 xg { x ) Ax 再通过积分变数代换.这不难做到，我们把它放在 

J —oo 

习题里留给读者去完成（习题 21). 

读者也许还会问 :在以 上两个定理中，如果一部分变量为离散 
型 ，一 部分为连续型，结果如何？答案是结论仍成立.对乘积的情 
况，由于有独立假定，证明不难.对和的情况则要用到高等概率论， 
这些都不在此细讲了. 

要注意到定理 1.2 和 1.1 之间的 区别： 后者不要求变量有独 
立性.读者也可以思考一下这个 问题: 如果说，事件积的概率的定 
理(第一章定理 3.3) 与此处定理 1.2 完全对应，那么，为什么事件 
和概率的定理(第一章定理 3.1) 与此处的定理 1.1 并不完全对应 
(概率加法定理中有互斥要求而定理 1.1 无任何要求），道理何在? 
定理 1.3( 随机变量函数的期望）设随机变量 X 为离散型， 
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有分布尸(夂=七）=丸， 2 = 1，2，一，或者为连续型,有概率密度函 

数 /(:) .则 

E ( g ( X )) 二 (当 E 1旦(义 .）1 A < 00 时） 

i i 

(1.17) 
或 

E ( g ( X )) = g(:c)/(x)cb: (当 I g ( x ) I f ( x)dx < ⑺时) 

J —OO \ J —OO / 

(1.18) 

这个定理的实质在 于：为 了计算 X 的某一函数 g(X) 的期望， 
并不需要先算出 g(X) 的密度函数，而可以就从X的分布出发， 
这当然大大方便了计算，因为在 g 较为复杂时， g(x) 的密度很难 
求. 

证 离散型情况 （1.17) 好证，因为 P(X = 〜） 二九 ，有 P(g 
( X )= g ( a l ))^ p i (《（〜），《（〜），…中可以有相重的，但这并 

不影响下面的证明）.由此立即得出 （1.17). 

连续型情况较复杂，我们只能就 g 为严格上升并可导的情况 
给出证明.按第二章 (4.2) 式，这时 Y 二 g(X) 的密度函数为 f{h 

其中 A 为 g 的反函数，即(: c)) 二 x. 此式两边对 
x 求导，得//(>0丨， = （x) = l， 即；/(发（1)) = 1//(工〉.因此 

E ( g ( X )) = yf ( h ( y )) h / ( y)dy 

J —CO 

作积分变数代换 y = g ( i )， 注意到 f ( h ( g { x )))^ f { x ), h / {g 
(: c )) = l / g '(: c ) 及 d：y = ^( X)dx ， 得 

E ( g ( X )) = f°° gU ) f { x)dx 

J —oo 

即 （1.18) .— 般情况 (g 非单调）的证明超出本书范围之外，但对有 
些简单情况， g (X) 虽非单调，但 g(X) 的密度不难求得，这时 

(1.18) 也不难证.有几种这样的情况作为习题留给读者. 

本定理的一个重要特例是 
系 1.1 若 c 为常数，则 
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E(cX) - cE(X) (1.19) 

证明由取 = 得出.当然，直接证明也很容易. 

这几个定理无论在理论上和实用上都有重大意义，这里我们 
举几个例子说明其应用. 

例 1.6 设 X 服从二项分布4)，求 £( X ). 

此例不难由定义1 . 1直接计算，但如下考虑更简单 ：因 X 为 n 
次独立试验中某事件 A 发生的次数，且在每次试验中 A 发生的 
概率为户.故如引进随机变量，…，，其中 

|1 ， 若在第 f 次试验时事件 A 发生 
f = 10,若在第 f 次试验时事件 A 不发生 ( * 、 
则&，…，独立，且 

X = A + …+ • 尤 (1.21) 

按定理 1.1 有，… +£： U „) .为计算注 
意按定义(1.20)，^只取两个值1和0,其取1的概率为 p ， 取0 
的概率为 1 — •因而 E ( X ,) = lxp +0 x ( l -户）=.由此得到 

E(X) = np (1.22) 

这比直接计算要简单些，又注 意：在 上述论证中并未用到 X x , *, 
独立这一事实. 

例 1.7 再考虑第一章例 2.2 那个 “ n 双鞋随机地分成 n 堆” 
的试验，以 X 记“恰好成一双”的那种堆的数目，求 £( X ). 

此题若要直接用定义1.1，就须计算 P ( X =0, 即“恰好有 f 
个堆各自成一双”的概率.这个概率计算不易，但使用上例的方法 
不难 求解： 引进随机变量 Xi ，…， X „ ，其中 

|1 ， 若第 i 堆的两只恰成一双 
' = (0, 若第£堆的两只不成一双 
则仍有 A +…+ ，且 E(X i )=P(X i = l) = P (第 f 堆恰成 
一双).为算这个概率，我们取如下的分堆方法 :先把 2 n 只鞋随机 
地自左至右排成一列，然后让排在1，2位置的成一堆，3,4位置的 
为第二堆，等等.总的排列方法有 （2 n ) !种.有利于事件 | 第 〖堆 
恰成一双1的排法可计算如 下:第 f 堆占据排列中的第（2£-1)和 
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第 2/ 号位置.第 （2£ -1) 号位置可以从 2 n 只鞋中任取一只，有 
7 m 种取法.这只定了以后，为使恰成一双，第夸位置就只有一 
种取法.取好后，剩下的 2 n -2只则可任意排，有 (2 tz -2)! 种排 
法 •因此 ，有利于上述事件的总排列数为 2 n _ W 2 n - 2)!，而所求 
的概率为 

2 n (2 n ~2) l /(2 n )\ = l /(2 n - 1) 

此即为 E ( X £ 〉 ，而 E ( X ) = E ( Xi ) + …+ E ( X n ) = n /(2 n - 1) 

例 1_8 试计算“统计三大分布”的期望值. 

对自由度 w 的卡方分布，直接用其密度函数的形式（第二章 
(4.26))， r 函数的公式（第二章 （4.23)) 及数学期望的定义 1.3, 
不难算出其期望为〃•略简单一些是用第二章例4.9,把 X 表为 
X ? +…+ , X 1? -, X n 独立且各服从标准正态分布 N (0，1) •按 

定理 1.3, 有 

E { X \) = -^1°° x 2 e-^dx = X °° e - Ax 2 dx 

V 2k j -°° V27t j o 

把 e ^ 2/2 x 2 d : r 写为-: rcKe - A 2 ) ，用分部积分，得到 

'°° 2 ^ * f°° 2 i foo 2 _ 

n e _J: n x 2 dx ^ n dx = ^dx = /2tt/2 

J 0 ^ 0 一 oo 

后一式用第二章( 1 . 1 5 )•于是得到 £( x ?) = l ， 而 E ( X ) = E ( X 2 1 ) 

+ … + E ( X 2 „) = 72 . 

对自由度”的 r 分布，由于其密度函数（第二章 （4.31) 式）关 
于0对称，易见其期望为0.但是有一个条件，就是自由度”必须 
大于1.这是因为 

*oo 71 + 1 

1^1(1 + x 2 /fiY 2 dr = ooin = l 

j —00 

因而条件 (1.4) 不适合，当 ”>1 时上式的积分 有限. 

对自由度为 /7 Z ，72的 F 分布，写 

X = = m - x nX 2 / X 1 

其中独立，分别服从分布和 z 2 m . 由于； 独立，按 
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第二章定理 3. 3, 知 xr 1 和 X 2 也独立，故按定理 1.2, 有 
E(X) - m- l nE{X 2 )E{Xl v ) = m^nmEiXi 1 ) = nECXf 1 ) 

(1.23) 

于是问题归结为计算 £(Xf ' 按定理 1.3, 有 

^( xr 1 )- ( 2 ，(量)）1 J 工 

= (2 n/2 r (号 )) l \\- x/l x {n ~ 2)/1 - l dx 



= 1/( n - 2) 

由此及 （1.23), 知 

E(X) = n/(n~2) (X - F m ,J (1.24) 

此式只在 w >2 时才有效.当„二1,2时，匕,„的期望不存在. 

3,1.3 条件数学期望(条件均值） 

与条件分布的定义相似，随机变量 Y 的条件数学期望，就是 
它在给定的某种附加条件之下的数学期望.对统计学来说，最重要 
的情 况是: 在给定了某些其他随机变量 X ， Z ， …等的值: c ， z ， …等 
的条件之下， Y 的条件期望，记为 £( Y | X = x ， Z = z ， …）.以只有 
一个变量 X 为例，就是 E ( Y|X = ： r ). 在 X 已明确而不致引起误 
解的情况下，也可简记为 £( Yk ). 

如果知道了 （ x ， y ) 的联合密度，则 £( YU ) 的定义就可以具 
体 化为： 先定出在给定 X = x 之下， Y 的条件密度函数 f ( ylx )， 
然后按定义 1.3 算出 

E(y|jr) - yf{y \x)dy (1.25) 

J — oo 
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如果说，条件分布是变量 X 与 Y 的相依关系在概率上的完全 
刻画，那么，条件期望则在一个很重要的方面刻画了二者的关系， 
它反映了随着 X 取值 I 的变化， Y 的平均变化的情况如何，而这 
常常是研究者所关心的主要内容.例如，随着人的身高: r 的变化， 
具身高 x 的那些人的平均体重的变化情况 如何； 随着其受教育年 
数: r 的变化，其平均收入的变化如何等等.在统计学上，常把条件 
期望 £( Ylx ) 作为 x 的函数称为 Y 对 X 的“回归函数”（回归这 
个名词将在第六章中解释），而“回归分析”，即关于回归函数的统 
计研究，构成统计学的一个重要分支. 

例 1.9 条件期望的一个最重要的例子是 ( X ， Y ) 服从二维正 
态分布根据第二章例 3. 3,在给定 X = x 时 Y 
的条件分布为正态分布 N(b + pcF 2< yi l (^ ~ a ) , d 2 ( 1 - p 2 )) • 因为 
正态分布 N ( m ， 的期望就是 "，故有 

E(Y\x) = b + p a20\ X {x — a) (1.26) 

它是 X 的线性函数.如果 pX )， 则 E ( Y | x ) 随 X 增加而增加 ， BP 
Y “平均说来”有随 X 的增长而增长的趋势，这就是我们以前提到 
的“正相关”的解释.若"<0,则为负相关，当0 = 0时， X 与 Y 独 
立， E(YU) 当然与： r 无关. 

从条件数学期望的概念，可得出求通常的（无条件的）数学期 
望的一个重要公式.这个公式与计算概率的全概率公式相当.回想 
全概率公式 P ( A ) = ^ t P ( Bi ) P ( A \ Bi ), 它可以理解为通过事 

件 A 的条件概率 p(A | 战)去计算其(无条件)概率 P ( A ). 更确定 
地说， P ( A ) 就是条件概率 P ( A | 战）的某种加权平均，权即为事件 
的概率.以此类推，变量 Y 的（无条件)期望，应等于其条件期 

望 £：( YU ) 对 x 取加权平均， a ： 的权与变量 X 在 a ： 点的概率密度 
AU ) 成比例，即 


E ( Y ) = E ( Y \ x ) f 1 ( x)dx (1.27) 

v — OO 

此式很容易证 明：以 /( x ，30 记 U ， Y ) 的联合密度函数，则 X,Y 
的（边缘)密度函数分别为 
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f \{ x ) — /( D ) d：y 和 / 2 (： y ) 二 f ( xjy)Ax 

* J 一 oc fcj — oo 

按定义， E ( Y ) = : y /2(: v ) cl ： y ， 可写为 

* /一 oo 

E ( Y ) = [ yf(x , y)dxdy 

J — CO J — oo 

roo r poo - 

二 yf ( a ： jy)dy dx 

J 一 00LJ— 00 - 

由于 E ( Y | x ) = : y /( U ) d ： y // i ( x ) ，有 yf (^ c ^ y)dy = 

J 一 oo — 00 

ECYU )/ 〆 :^， 而上式转化为 （1.27). 

公式 （1*27) 可给以另一种写法，记 g ( x ) 二 £( Yk )， 它是 ： c 
的函数，则 （1.27) 成为 

E ( Y ) ~ g ( x ) fi ( x)dx (1.28) 

%) — oo 

但据 (1.18) ，上式右边就是 £( g ( X )) .从的定义 "( X ) 是 
£(丫!0：)匕 =；0 可简写为五（11幻.于是由（1.28)得 

E ( Y ) = E [ E ( Y \ X )] (1.29) 

这个公式可以形象地叙述 为：一 个变量 Y 的期望，等于其条件期 
望的期望 . E(y IX )这个符号的意义，从上面的叙述中已明确交代 
了，只须记住 :在求 £( ylx ) 时，先设定 x 等于一固定值 u 无 
随机性，这样可算出 £( YU )， 其表达式含： T ， 再把： T 换成 x 即 
得 ■ 

公式 (1.29) 虽可算是概率论中一个比较高深的公式,它的实 
际含义其实很简单•.它可理解为一个“分两步走”去计算期望的方 
法.因为在不少情况下，迳直计算 £( Y ) 较难，而在限定某变量 X 
之值后，计算条件期望 E ( yU ) 则较容易.因此我们分两步 走：第 
一 步算出 E ( YU )， 再借助 x 的概率分布，通过 E ( YU ) 算出 
£( Y ) .更直观一些，你可以把求 £( Y ) 看成为在一个很大的范围 
求平均.限定 X 之值从这个很大的范围内界定了一个较小的部 
分.先对这较小的部分求平均，然后再对后者求平均，比如要求全 
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校学生的平均身高，你可以先求出每个班的学生的平均身高，然后 
再对各班的平均值求一次平均.自然，在作后一平均时，要考虑到 
各班人数的不同，是以各班人数为权的加权平均.这个权的作用相 
当于公式 （1.27) 中的 // x ). 

公式 （1.29) 虽来自（1.27)，但因为其形式并不要求对 X,Y 
有特殊的假设，故可适用于更为一般的情形.例如， X 不必是一维 
的，如果 X 为”维随机向量 （& ，…， XJ ， 有概率密度/(〜，•••， 
x „) ，则公式 （1.29) 有形式 

•oo roo 

E(Y) = … E(Y 1^1 ， … ， 4)/(：^ ，…， A )dr 「 "dr„ 

v — OO v — oo 

(1.30) 

这里 [( YUi ， …， A ) 就是在的条件下 ， Y 
的条件期望，又 X ， Y 都可以是离散型的.例如，设 X 为一维离散 
型变量，有分布 

P(X - ai ) - pi ， i 二 1，2,… 

则公式 （1.29) 有形式 


£( Y ) 二 S ^ E ( Yk ) (1.31) 

i = 1 


3.1.4 中位数 

刻画一个随机变量 X 的平均取值的数学特征，除了数学期望 
以外，最重要的是中位数. 

定义 1.4 设连续型随机变量 X 的分布函数为 F (: r), 则满 
足条件 

P(X Km) = F ( m ) = 1/2 (1.32) 

的数 m 称为 X 或分布 F 的中位数. 

由于连续型变量取一个值的概率为 0， P ( X = m ) 二0,由 
(1.32) 知 

《 m) = P(X < m) — P(X m) ~ P(X ^ m ) — 1/2 
就是说， m 这个点把 X 的分布从概率上一切两半：在 m 左边（包 
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括点 W 与否无所谓）占一半，;77右边也占一半，从概率上说， W 这 
个点正好居于中央，这就是“中位数”得名的由来. 

在实用上，中位数用得很多，特别有不少社会统计资料，常拿 
中位数来刻画某种量的代表性数值，有时它比数学期望更说明问 
题，例如，某社区内人的收入的中位数告诉我 们：有 一半的人收人 
低于此值，另一半高于此值.我们直观上感觉到这个值对该社区的 
收入情况，的确很具代表性.它和期望值相比它的一个优点 是：它 
受个别特大或特小值的影响很小，而期望则不然.举例而言，若该 
社区中有一人收入在百万元以上，则该社区的均值可能很高，而绝 
大多数人并不富裕，这个均值并不很有代表性.中位数则不 然：它 
不受少量这种特大值的影响. 

从理论上说，中位数与均值相比还有一个优点，即它总存在， 
而均值则不是对任何随机变量都存在. 

虽则中位数有这些优点，但在概率统计中，无论在理论和应用 
上，数学期望的重要性都超过中位数，其原因有以下两 方面： 

一 是均值具有很多优良的性质，反映在前面的定理 1.1 一 
1.3 .这些性质使得在数学上处理均值很方便.例如， fCXi + X 2 ) 
二 £：(&) + E ( X 2 )， 这公式既简单又毫无条件（除了均值存在以 
外）.中位数则不然 + 的中位数，与各自的中位数 
之间，不存在简单的联系，这使中位数在数学上的处理很复杂且不 
方便. 

二是中位数本身所固有的某些缺点.首先，中位数可以不唯 
一 .例如，考察图 3.2 的密度函数/•它只在两个分开的区间 （ a ， 
6) 和“， d ) 内不为0,且在这两段区间上围成的面积都是1/2.这 
时，按中位数的定义1.4,区间 [6， c ] 中任何一点 w 都是中位数. 
它没有一个唯一的值. 

次一个问题是：在 x 为离散型的情况，虽也可以定义中位数 
(其定义与定义 1.4 有所不同），但并不很理想，不完全符合“ 中位” 
这名词所应有的含义.考察一个简单例子，设 X 取三个值1,2,3, 
概率分布为 
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图 3.2 

P(X 二 1) 二2/7, P(X = 2) = 4/7, P(X = 3) = 1/7 
这时就不存在一个点 m ， 使 m 两边的概率恰好一样，不得已只好 
退而求其 次:找 一个点 m ， 使其左右两边的概率差距最小，在本例 
中这个点是2.从2这个位置看，左边的概率 （2/7) 要比右边的概 
率 （1/7) 大.故并不是理想的“中位”数. 

例 1.10 正态分布 iVbd 2 ) 的中位数就是~，这从 N ( p ， 
的密度函数关于；/点对称可以看出.指数分布函数已在第二 
章 （1.21) 式中列出，故其中位数 w 为方程1 _e Am = l /2 的解，即 
m = ( log 2) /A (本书中， log 都是以 e 为底） . 

3.2 方差与矩 

3.2.1 方差和标准差 

现在我们转到本章开始时提到的另一类数字特征，即刻画随 
机变量在其中心位置附近散布程度的数字特征，其中最重要的是 
方差. 

设随机变量 X 有均值 a =£( X ) .试验中， X 取的值当然不一 
定恰好是心而会有所偏离.偏离的量 x - a 本身也是随机的（因 
为 X 是随机的）.我们要取这个偏离的某种有代表性的数 
字，来刻画这偏离即散布的程度大小如何.我们不能就取 X - a 的 
均值，因为 £( X ~ a )-£( X )- a -0 ——正负偏离彼此抵消了. 
一种解决办法是取 X - a 的绝对值 | X-a | 以消除符号，再取其 
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均值 £： -a I ，作为变量 X 取值的散布程度的数字特征.这个 
量£ | X-a | 叫做 X ( 或其分布）的“平均绝对差”，是常用于刻画 
散布度的数字特征之一.但是，由于绝对值在数学上处理甚不方 
便，人们就考虑了另一种作法 :先把 （ X - a ) 平方以消去符号，然后 
取其均值得 £( X - a ) 2 , 把它作为 X 取值散布度的衡量.这个量 
就叫做 X 的“方差”（方 差： “差”的“方”）. 

定义 2.1 设 X 为随机变量，分布为 F ， 则 

Var ( X ) - FAX - EX ) 2 (2.1) 

称为 X ( 或分布 F ) 的方差 '其 平方根 VVaKXK 取正值）称为 X 
(或分布 F ) 的标准差. 

暂记 = a •由于 （ X - a ) 2 二 X 2 -2 aX + a 2 , 按定理 1.1 得 

Var ( X )- E ( X 2 ) - 2 aE ( X ) + a 2 

二 FAX 2 ) - ( EX ) 2 (2.2) 

方差的这个形式在计算上往往较为方便. 

方差之所以成为刻画散布度的最重要的数字特征，原因之一 
是它具有一些优良的数字性质，反映在以下的几个定理中. 

定理 2.1 1°常数的方差为 0. 2°若 C 为常数，则 Var 

(X + C )- Var ( X ). 3° 若 C 为常数，则 Var ( CX ) = C 2 V ar ( X ). 

证 1。 若入=常数 a ， 则£：(乂）=心故叉-£：(叉）=0，因 
而 Var ( X ) 二 0. 

2。因为£(叉+ 0 = £(幻+ 0,故 
Var(X + C ) 二 E[(X + C ) - (EX + C )] 2 二 E[X - EX ] 2 

二 Var ( X ) 

3° 因 C 为常数，有 £( CX ) 二 CE ( X ). 故 
Var ( CX )= E [ CX - CE ( X )] 2 - C 2 E(X - EX ) 2 

= C 2 Var ( X ) 

定理 2.2 独立随机变量之和的方差，等于各变量的方差之 
和： 


Var 是方差 Variance 的缩写 . 
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Var ( + … + Xn ) = Var ( Xi ) + ... + Var ( X „ ) (2.3) 

n n 

证记£(足） 二〜， f 二 1，…，” ，则因二，有 

i = 1 i - 1 

Var ( X ! + …+ X n ) 二 E _ 2 ~ S a i _ = E _ S (足 _ _ 

I = 1 i ^ 1 i = 1 

二 E \ (Xj - a ； )(Xj - a ；) 1 

/ = i 

(2.4) 

有两类项：一类是相同，这类项，按方差的定义，即为 Var 
( K ). 另一类项是； d 不同.这时，因 X ,，％独立，按定理 1.2 有 

E[(X 2 - ai )(x 3 - a } )]= EiXiX /) - EiaiXj ) - EiajX ,) + a ^ 7 

=ciidj — ci{Ci } — diCij + a fij — 0 

这样，在 (2.4) 式最后一个和中，只剩下 i 二 j 的那些项.这些项之 
和即 （2.3) 式右边.因而证明了本定理. 

这个定理是方差的一个极重要的性质，它与均值的定理 1.1 
相似.但要注意的 是:方 差的定理要求各变量独立，而均值的定理 
则不要求. 

例2,1设 X 为一随机变量， = a 而¥肛(入）= 5 2 .记 
Y =( X ~ a)/aM E ( Y ) = 0, 且按定理 2.1 易知 Var ( Y ) = l .这 
样，对 X 作一线性变换后，得到一个具均值0、方差1的变量 
常称 Y 是 X 的“标准化”. 

例 2.2 设 X 服从波哇松分布 P ( A ). 求其方差.前已求出 
E ( X ) = A .又据定理1.3,知 

E ( X 2 ) - 2 zV a AV 2 ； 

i — 0 

oo 

把彡写为 f ( z +- l ) + z _， 注意到2 i ^ X X l /i \ 就是 X 的均值，即 

：= 0 

A ， 而 z +( z + - 1)// !二 l/(f - 2) ! ， 有 
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E ( X 2 )= 2 e ~ A AV(f - 2)! + A 

/ = 2 

二 A 2 Se ~ A A l_2 /(i - 2)! + A 

i 二 2 

oo 

= A 2 e _A ! + A = A 2 e ~ A e A + A = A 2 + A 

J 二 0 

于是按公式 (2.2) 得到 Var ( X ) = A 2 + A - A 2 - A . 即波哇松分布 
PU ) 的均值方差相同，都等于其参数 A . 

例 2.3 设 X 服从二项分布，/0,求 Var ( X ). 

把 X 表为 （1.21) 的形式，其中； Q 由 （1.20) 定义，因为 Xi ， 
…， X n 独立，有 Var ( X ) - VaHXj + …+ Var ( X n ). 现计算 
VaKX z ). 因足只取1，0两个值，概率分别为/>和1 - p ，故 

E ( X t ) - p . E { X }) = p,i - 1 ，…， n 

因而得到 Var (足〉 二户—户 2 = />(1-夕），而 

Var ( X ) = np(l - p ) (2.5) 

本题也可由定义直接计算，但比这麻烦些. 

例 2.4 再考察例1.7,求该例中变量 X 的方差. 

仍如该例把 X 表为& +… + 麻烦的是，这里&，…尤 
并非独立，因而不能用定理 2. 2.但这种表示仍可简化计算，有 

E ( X 2 ) - E { ix t ) 2 - V ； E ( X ^) (2.6) 

i=l i，j = l 

分两类项：一类是 f .这类项之和为 ^ EiX }). 由于足 只取 

i — 1 

1，0两值，故$ = 因而 

Se ( X ?) = - E ( X ) - n /(2 n - 1) 

i - 1 i = 1 

(见例 1.7) 

对，取，=1二2为例，其他 f ， j 一样， 因为足，曷 都只取1 ， 
0为值，有 

E { X x X 2 ) = P ( X } - 1, X 2 = 1) 
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即“第 1,2 堆都恰成一双”的概率.这概率计算的思想，与例1 .7 中 
阐明过的完全一样，结果为 

P(X\ — 1, X 2 = 1) 二 2 n * 1 • (2n —2)*1* (2 n — 4) ! /(2n ) ! 

= 1 /[ (2n — 1)(272 - 3)] 

又在和 (2.6) 中 “7^ 的项的个数为 n(n -1), 故第二类项 （f 
的项）之和为77(71-1)/[(2/2-1)(272-3)].由此，用公式(2.2)， 
得 

Var ( X ) = E(X 2 ) - ( EX ) 2 

= n/{2n — 1) + n(n — 1)/[ (2 n — 1 ) (2n — 3)] 

- [n/(2n - I )] 2 - 4n(n - l) 2 /[(2n - 1) 2 (2« - 3)] 
例 2.5 设 X 服从正态分布 N (//， a 2 ). 注意到 = y ，有 

Var(X) = E(X — ") 2 二 (x - 尸 ） 2 e— u '“) W d:c 

V2n<7 j 


作变数代换 x = Y + 扣，得 


Var ( X ) = 




d ， 


式中的积分已在例 1.8 中计算过，为 V ^ r . 所以 


Var ( X ) = a 2 (2.7) 

由此得到正态分布 N (//, a 2 ) 中另一参数(? 2 的 解释: 它就是 
分布的方差.正态分布完全由其均值^和方差 V 决定，故也常说 
“均值为//方差为 W 的正态分布”.经过标准化 Y ={ X ~ fx )/ a , 
按例 2.1 得出均值为0方差为1的正态分布，即标准正态分布. 


这一点早在第二章例1 .6 中，通过直接计算分布的方法证明过(第 



图 3.3 


二章 （1.17) 式）. 

方差 f 愈小，则 X 的取值以更大 
的概率集中在其均值^附近，这一点 
也可从如下看 出：正 态分布 N { fx , a 2 ) 
的密度函数在 ： r = p 点之值，等于 

( v ^2 tT(X ) 1 •它与 (7 成反比: <7愈小，这 
个值愈大，而密度在"点处有一个更 
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高的峰，显示概率更多地集中在 // 点附近，见图 3. 3.其中画出了 
正态 N (卜 ( J 2 ) 当 a 2 = l 和 a 2 = 1/4 时密度函数的图形. 

例 2.6 指数分布（第二章例 1.7) 的方差为 1/ A 2 . 区间 [ a ，6] 
上的均匀分布（第二章例 1.9) 的方差为 （6 - af / Yl . 这些都容易 
直接据公式 (2.2) 算出，留给读者.在均匀分布的情况，方差随区间 
之长 b ~ a 的增大而增大，这当然，因区间长了，散布的程 
度也就大了. 

例 2.7 求“统计三大分布”的方差. 

先考虑卡方分布.设 X 把 X 表为右+…+ Xh 
•， x n 独立同分布且有公共分布 iV (0， l ) .有 

Var ( X ?) = £ Uf ) - [ EiX ])] 2 - £( X |) - 1 
而 


/V 


E(XV 


4、_ 


v2tt 


作变数代换 x = 有 

2 


E ( Xj ) 


v2k 


x 4 e - 


y 2 tt 

2/2 

, oo 

r ck 二 




々 d 


X 


4, 


V K 


2 2 


V^TT 


故 Var ( X ， ） 二 3 — 1 = 2 ，而 Var ( X ) 二 2 n 


次考虑[分布|设叉 =Xi ^ X 2 

A 〜] v ( o ， i ) .前已指出 EU ) = o .故由独立性有 

Var ( X ) = E ( X 2 ) - E ( Xj ) E ( n / X 2 ) = nE ( l / X 2 ) 

在例 1.8 中已算出 £( l / X 2 ) = l/(n - 2)， 故 Var ( X ) = w /( 7 广 

2) ， U>2). 


自由度”的〖分布~有期望0,与标准正态 N (0，1) 的期望 
同•其方差 n/(n -2) 大于1但当 n 很大时接近 N (0,1) 的方差1 . 
以后将指出：当 w 很大时，的分布确实接近 iV (0， l ). 

类似地算出自由度 m , n 的 F 分布1^，„的方差为 2 W 2 (77 i 十 
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n — 2) / [ rw ( n ~ 2) 2 ( n _ 4)] (当 w >4) .细节留给读者. 

3.2.2 矩 


定义 2.2 设 X 为随机变量， r 为常数， A 为正整数.则量 
£[(叉-(/]称为入关于^点的6阶矩. 

比较重要的有两个 情况： 

1. c = 0 .这时以二 £：(#) 称为 X 的々阶原点矩. 

2. c = E ( X ) .这时抖二 E[(X — EX /] 称为 X 的左阶中心 

矩. 


一阶原点矩就是期望.一阶中心矩以二0,二阶中心矩 /^就 
是 X 的方差 Var ( X ). 在统计学上，高于4阶的矩极少使用.三、四 
阶矩有些应用，但也不很多. 


应用之一是用 的 去衡量分布是否有偏.设 X 的概率密度函 
数为 /( x ) .若/关于某点 a 对称，即 


f(a + .r) ~ f(a ~ x) 



如图3,4所示，则 a 必等于 £( X ), 且 
" 3 =£[ X - E ( X )] 3 =0 .如果" 3 >0, 

则称分布为正偏或右偏.如果^ 3 <0, 
则称分布为负偏或左偏.特别，对正态 
分布而言有内二 0 , 故如的显著异于 
0 , 则是分布与正态有较大偏离的标 
志•由于的因次是 X 的因次的三次 


方，为抵消这一点，以 X 的标准差的三次方，即"尸去除 "3 .其商 


A 二" 3 /"尸 (2.8) 

称为 X 或其分布的“偏度系数”. 


应用之二是用// 4 去衡量分布（密度）在均值附近的陡峭程度 
如何.因为〜二£：[叉- E ( X )] 4 , 容易看出，若 X 取值在概率上很 
集中在 E ( X ) 附近 ，则以 将倾向于小，否则就倾向于大.为抵消尺 


度的影响，类似于化的情况，以标准差四次方即 d 去除，得 
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卢 2 = " 4 /"i (2.9) 

它称为 X 或其分布的“峰度系数”. 

若 X 有正态分布 iV (//， tr 2 )， 则# 2 = 3，与"和(7 2 无关.为了迁 

就这一点，也常定义化//^-3为峰度系数，以使正态分布有峰度 
系数 0. 

“峰度”这个名词，单从表面上看，易引起误解.例如，我们在例 
2.4 中已指岀，并由图 3. 3看出，就正态分布 N (/ u ，( j 2 ) 而言 ， ct 2 愈 
小，密度函数在//点处“高峰”就愈高且愈陡峭.那么，为何所有的 
正态分布都又有同一峰度系数？这岂不与这个名词的直觉含义不 
符？原因 在于: 在除以 g 后已失去了因次，即与 X 的单位无 
关.或者换句话说，两个变量 X ，谁的峰度大，不能直接比其密 
度函数，而要调整到方差为1后再去比.就是说，找两个常数 
c 2 ，使 Cl X 和的方差都为1，再比较其密度的“陡峭”程度如 

何. 

在这个共同的标准下，“峰度”一 
词就好理解了.不信看图 3. 5.为便于 
理解，我们在图中画了两条都以为 
对称中心的对称密度曲线，且峰的高 
度一样，但/!在顶峰处很陡.而/ 2 则 
在顶峰处形成平台，较为平缓.这样， 

在"附近，/ 2 的概率多而的概率少.而方差都为:^故力的“尾 
巴”必比/ 2 的厚一些，这导致其&较大，即有较大的峰度系数. 

3.3 协方差与相关系数 

现在我们来考虑多维随机向量的数字特征，以二维的情况为 
例.设（ X ， Y ) 为二维随机向量， X ， Y 本身都是一维随机变量，可 
以定义其均值方差，在本节中我们记 

E ( X ) 二 mi , E ( Y ) = m 2 , Var ( X ) = cT ) , Var ( Y ) — a \ 

这些都在上两节中已讨论过了，没有什么新东西.在多维随机向量 
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图 3.5 



中，最有兴趣的数字特征是反映分量之间的关系的那种量，其中最 
重要的，是本节要讨论的协方差和相关系数. 

定义 3.1 称五 [( X - miXy — m 2 )] 为 X ， Y 的协方差，并 
记为 Cov ( X ， lT . 

“协”即“协同”的意思， X 的方差是 （X - 所 1 )与（久-%)的 
乘积的期望，如今把一个 X - 换为 Y - m 2 ，其形式接近方差， 
又有 X ， F 二者的参与，由此得出协方差的名称.由定义看出 ： Cov 
u ， y ) 与 X ， y 的次序 无关: CovU ， 10 = 0^(7，；0.直接由定 
义得到协方差的一些简单性质.例如，若 C \ jC 2 yC - 7 ,y c 4 都是常数， 
则 

CovCc^X + ciyC^Y + C 4 ) — C)C 3 Cov(X , Y) (3.1) 

又易知 

Cov ( X , y ) - E ( XY ) — m yn 2 (3.2) 

这些简单性质的证明都留给读者. 

下面的定理包含了协方差的重要性质. 

定理 3.1 1° 若 X，Y 独立，则 CovU ， Y ) = 0. 

2° [ Cov ( X ， Y )] 2 < d 4. 等号当且仅当 X ， Y 之间有严格 

线性关系（即存在常数 a 使 a + W 0 时成立. 

证1°的证明由定理 1.2 直接得出，因据此定理，当 X ， Y 独 
立时有 EUY ) 二 m ! 化•为证明2°，需要两点预备 事实： 

a _ 若 a ， b ， c 为常数 , a >0,而二次三项式 at 2 + 2 bt ^ c Mt 
的任何实值都非负，则必有 ac > b 2 . 

b . 若随机变量 Z 只能够取非负值，而 £：( Z ) =0,则 Z = 0. 

为了不打断此处的讨论，我们将这两点事实的证明放到后面， 
现考虑 

E [ t(X - + (Y - m 2 ) ] 2 a \ t 2 + 2 Cow { X y Y)t + o \ 

(3.3) 


* Cov 是协方差 Covariance 的缩写 . 
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由于此式左边是一个非负随机变量的均值，故它对任何 r 非负.按 
预备事实 a， 有 

如 > [Cov(X，Y)] 2 (3.4) 

进一步，如果 (3.4) 成立等号，则 （3.3) 右边等于 Uy±a 2 ) 2 . 土号 
视 Cov(x, y)>o 或 <0 而定，为确定计，暂设 Cov(x, y)>o,M 
( 3 . 3 ) 右边为+ <72)2 .此式在 t ~ tf )~ — 时为0 .以 t ~ tQ 
代入 (3. 3)，有 

£[fo(X— m 1 ) + (Y — 讲 2)] 2 = 0 

再按预备事实 b， 即知以 （ X - 774)+ ( 爪 2 ) 二0, 因而 X ， Y 之 

间有严格线性关系. 

反之，若 X ， y 之间有严格线性关系 Y = aX ^ b.m al = Var 
( Y) = Var(aX + b) ~ Var ( aX ) = a 2 Var ( X ) = a 2 tr?. 又因 m 2 = E 
(Y ) 二 aE(X) + b^am ， b ， 有 Y - m 2 = (aX + b) ~ (am 1 + b) 
= a(X — /« i ) •于是 

Cov ( X , y )= E [( X ~ m x ) a ( X - m x )}^ a [ E(X - m { ) 2 ] 

= aa \ 

因此 

[ Cov ( X , Y ) ] 2 = a 2 a \ = a \( a 2 a \) - a \ a \ 

即 （3.4) 成立等号，这就证明了 2° 全部结论. 

现证明用到的两个预备事实.对 a， 注意到若沉<沪，则 at 2 + 
2& + c = 0 有两个不同的实根 而 at ^ 2 bt c ~ a{t 

(z _ 0) ■取 使 f 0 < r 2 , 则将有 atl + 2 bt 0 + c ~ a ( t 0 ~ t x ) 
Go - r 2 )<0, 与 at 2 + 2 bt^c 对任何 z 非负矛盾，这证明了 a . b 的 
证明很简 单:若 Z 关0,则因 Z 只能取非负值，它必以一定的大于0 
的概率取大于0的值，这将导致 £(Z)>0, 与 E ( Z )= 0 的假定不 
合. 


定理 3.1 给“相关系数”的定义打下了基础. 
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定义 3.2 称 Cov(X， \0/(<7 1<72 )为X， Y 的相关系数，并记 
为* Corr(X，Y). 

形式上可以把相关系数视为“标准尺度下的协方差”.协方差 
作为 （X- 7^)( Y- /n 2 ) 的均值，依赖于X，7的度量单位，选择 
适当单位使 X，y 的方差都为1，则协方差就是相关系数,这样就 
能更好地反映 X，Y 之间的关系，不受所用单位的影响. 

由定理 3.1 立即 得到： 

定理 3.2 1 ° 若 X，Y 独立，则 Co rr U ， Y )=0. 2 。 -1 

< Corr ( X , Y )<1， 或 I Corr ( X , Y)l <1 ， 等号当且仅当 X 和 Y 有 
严格线性关系时达到. 

对这个定理我们要加以几条重要的解释. 

1 .当 Corr( X, Y) = 0( 或 Cov( X, Y) = 0, 一 样），称 JC, y “不 
相关”•本定理的 r 说明由 x， y 独立推出它们不相关.但反过来 
一般不成 立：由 Corr(X，Y) 二0不一定有X， y 独立.下面是一个 
简单的例子. 

例 3.1 设 ( X，Y) 服从单位圆内的均匀分布，即其密度函数 
为 


fU,y) = 


7T 


，当： C 2 十 / < 1 

0， 当 X 2 + jy 2 > 1 

第二章公式（2.9)， （2. 10)，容易得出X， Y 有同样的边缘密度 
函数 


.2 


g (x)=| 2 ^ 2/rTT ^ 当 U<1 

I 0， 当|工丨>1 

这个函数关于0对称，因此其均值为0.故 E ( X ) = E ( Y )^ 0 y m 


Cov(X,y) = E ( XY ) - 



9 ? xydxdy = 0 

j: +y <\ 


故 Corr(X，Y )=0 •但 X， Y 不独立，因为其联合密度/(^)不 
等于其边缘密度之积 g(x)g(y). 


* Corr 是相关 Correlation 的缩写 t 
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2. 相关系数也常称为“线性相关系数”.这是因为，实际上相 
关系数并不是刻画了 之间“一般”关系的程度，而只是“线 

性”关系的程度.这种说法的根据之一就在于，当且仅当 X ， Y 有 
严格的线性关系时，才有 I Corr ( X , Y )| 达到最大值 1 .可以容易举 
出例子 说明： 即使 X 与 Y 有某种严格的函数关系但非线性关系， 
i Corr ( X , Y )| 不仅不必为 1 ，还可以为 0. 

例 3.2 设 X 〜 J ?( 一1/2，1/2)，即区间[-1々，1々]内的均 
匀分布，而 Y ^ cosX ， Y 与 X 有严格函数关系.但因 E ( X ) 二0,由 
(3.2) 有 


ri /2 

Cov ( X , Y ) - E(XY) = E ( XcosX ) = xcos^cdx - 0 

J - 1/2 

■ 

故 Corr ( X ， Y )=0 •你看， X ， Y 说是“不相关”，它们之间却有着严 
格的关系 y = cosX . 足见这样的相关只能指线性而言，一超出这 
个范围，这个概念就失去了意义. 

3. 如果0< | Corr ( X , y )| <1，则解 释为: X ， Y 之间有“一定 
程度的”线性关系而非严格的线性关系.何谓“一定程度”的线性关 
系？我们可以用图 3.6 所示的情况来说明.在这三个图中，我们都 
假定 ( X ， Y ) 服从所画出的区域 A 内的均匀分布（即其联合密度 
/ U ， y ) 在 A 内为 | A | _1 ， 在 A 外为 0，| A | 为区域 A 的面积）, 
在这三个图中， X ， Y 都无严格的线性关系，因为由 X 之值并不能 
决定 Y 之值.可是由这几个图我们都能“感觉”出， X ， y 之间存在 



图 3.6 
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着一种线性的“趋势”.这种趋势，在 ( a ) 已较显著且是正向的 （ X 增 
加时 y 倾向于增加），这相应于 Corr ( X , Y ) 比较显著地大于0.在 
( b ), 这种线性趋势比 ( a ) 更明显，程度更大，反映 lCo rr ( X ， Y )1 比 
( a ) 的情况更大，但为负向的.至于 ( c )， 则多少有一点儿线性倾向， 
但已甚 微弱： Corr ( X ， y ) 虽仍大于0但已接近 0. 

4. 上面谈到的“线性相关”的意义，还可以从最小二乘法的角 
度去解释 :设有 两个随机变量 X ， Y ， 现在想用 X 的某一线性函数 
a + bX 来逼近 Y ， 问要选择怎样的常数 <2，6,才能使逼近的程度最 
高？这逼近程度，我们就用“最小二乘”的观点来衡量，即要使 
E[(Y - a - 6 X ) 2 ] 达到最小. 

仍以叫，?^ 记 £( X )， E ( Y )，£ j ? 和4 i £ Var ( X ) , Var ( Y ). 
引进常数 

c - a — ( m 2 — bm \) 

则 

E[(Y - a - bX ) 2 ] — E [( Y - m 2 ) - b(X ~ — c ] 2 

= 4 + b 2 a \ - 26 Cov ( X , Y ) + c 2 , 

为使此式达到最小，必须取 c = 0,6 = Cov ( X , Y )/ aj = a^sCorr 

( X , Y )/^- C Tf 1 ^ 2 Corr ( X , Y ). 这样求出最佳线性逼近为（记 
p = Corr ( X , Y )) 

L ( X ) — mi ~ a \ } 02 pmi + < y \ l G 2 pX (3.5) 

这一逼近的剩余是 

E[(Y - L ( X )) 2 ] = a \ + b 1 a \ - 26 Cov ( X , Y ) 

~ (ay 1 02p) 2 a\ — 2{a\ X a2p)oia2p 

= a \{\- p 2 ) (3.6) 

如果 6 = ±1，则 E[(Y — L ( X ))] 2 = 0 而 Y = L ( X ) .这时 y 与 
X 有严格线性关系，已于前述.若 o < I d < 1，则 I 川 愈接近1，剩 
余愈小，说明 L ( X ) 与 Y 的接近程度愈大，即 X ， y 之间线性关系 
的“程度” 愈大. 反之， Id 愈小，则二者的线性关系程度愈小，当 
P 二0时，剩余为4.这时 X 的线性作用已毫不存在.因为，仅取一 
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个与 X 无关的常数 m 2 ，已可把 Y 逼近到4的剩余，因 £(y- 

二 al p 的符号的意义也由 （3.5) 得到解 释：当 />>0时， 
L ( X ) 中 X 的系数大于0,即 Y 的最佳逼近 a +队随 X 增加而增 
加.这就是正向相关.反之 <<0表示负向相关. 

由于相关系数只能刻画线性关系的程度，而不能刻画一般的 
函数相依关系的程度，在概率论中还引进了另一些相关性指标，以 
补救这个缺点.但是，这些指标都未能在应用中推开.究其原因，除 
了这些指标在性质上比较复杂外，还有一个重要原因 :在统 计学应 
用上，最重要的二维分布是二维正态分布.而对二维正态分布而 
言，相关系数是 X ， Y 的相关性的一个完美的刻画，没有上面指出 
的缺点.其根据有两条： 

1. 若( X ， Y ) 为二维正态，则即使允许你用任何函数 M ( X ) 
去逼近 Y (仍以 E [( Y - MU )) 2 ] 最小为准则，那你所得到的最 
佳逼近，仍是由 （3.5) 式决定的 L ( X ). 故在这个场合，只须考虑线 
性逼近已足，而这种逼近的程度完全由相关系数决定， 

2. 当（ X ， Y ) 为二维正态时，由 CorKXJ ) 二0能推出 X,Y 
独立.即在这一特定场合，独立与不相关是一回事.我们前已指出， 
这在一般情况并不成立， 

第一点的证明超出本书范围.第二点则不难证明.事实上我们 
将验 证：若 （ X ， Y ) 有二维正态分布 Con * 
( X ， Y ) = ^ o •而当 p = 0 时，按第二章 (2.7) 式易知， （ X ， y ) 的联合 
密度可表为 x ， y 各自的密度/\(: T ) 和 / 2 ( y ) 之积，因而 X ， y 是 
独立的. 

为证明此事，注意到£：(入）=心£(7) = 6.利用第二章(2.7) 

式的~0,6，(^，44)的密度函数的形式.有 

Cov ( x , y ) = £[(x — a)(y — 6)] 


(2 


^io 2 


\f \ — p 1 ) 1 {x — a)(y ~ 6 )exp 


1 


2(1 ~ p 2 ) 


一 a ) 2 _ 2p(x — a)(y -6) ( y - fc) 2 \ 1 

^ ⑽ + ai ； J dxd ^ 
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注意到 


(x - a ) 2 — 2 p(x ~ a)(y ~ b) + (,y - 6) 2 
a\ a \ a 2 <72 


x - a _ p(v — b) 

汀 1 ^2 


2 


VI 


p 


2 y — k 
a 2 


2 


作变数代换 


x ~ a 


u 


p(v — b) 


1 - 

可将上面的重积分化为 


2 \ (Tl 


<72 




y — b 
a 2 


oo 


Cov(X,y)= (2 tt) 一 1 


VI- p 2 ^\ u + aifrv 


• a 2 vexp 


2 , ? 
u + 


2 


dudv 


因为 


uvexp 


十 W 


2 


— oo 


oo 




2 


dudv 


ue 




oo 


2 


we 


V 


/2 d 


V 


r 2 exp( - — ~2 V tdwdi; 


e 


^du 


2 -~ y2/2 dv = 2 k 


v e 




oo 


得到 Cov ( X ， Y ) 二 Pi o .又 Var ( x ) = 4 ， Var ( y ) = 4 于是 

Corr(X,Y) = Cjov(X,Y)/{a { a 2 ) - p. 

3.4 大数定理和中心极限定理 


在数学中大家都注意到过这样的现象；有的时候一个有限的 
和很难求，但一经取极限由有限过渡到无限，则问题反而好办.例 
如，若要对某一有限范围的： T 计算和 


a n (x) 


X 


n 


X 


2! 3! 


X t , X 

+ …+ ―7 

n ! 


则在 n 固定但很大时，很难求.而一经取极限，则有简单的结果 
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lima n (^)= e ". 利用这个结果，当 n 很大时，可以把#作为〜 （ x ) 

n~^°° 

的近似值. 

在概率论中也存在着这种情况.如果 x 1 , x 2 ,-, x 7l 是一些 
随机变量，则 X 。… + 的分布，除了若干例外，算起来很复杂. 
因而自然地会提出问题 ：可否 利用极限的方法来进行近似计算? 
事实证明这不仅可能，且更有利 的是: 在很一般的情况下，和的极 
限分布就是正态分布.这一事实增加了正态分布的重要性.在概率 
论上，习惯于把和的分布收敛于正态分布的那一类定理都叫做“中 
心极限定理”.在本节 3.4.2 段中我们将列述这类定理中最简单， 
然而也是最重要的一种情况. 

在概率论中，另一类重要的极限定理是所谓“大数定 理”. 它是 
由概率的统计定义“频率收敛于概率”引伸而来.为描述这一点，我 
们把频率通过一些随机变量的和表示出来，设做了 n 次独立试 
验，每次观察某事件 A 是否发生.按 (1.20) 式定义随机变量 X“i 
=1，…， n . 则在这 n 次试验中事件 A —共出现了 & +… + 

次，而频率为 


+ X n )/n - X n (4.1) 

若 P ( A ) = f ， 则“频率趋于概率”就是说，在某种意义下（详见下 
文），当71很大时接近.但 f 就是； Q 期望值，故也可以 写成： 

当 n 很大时瓦接近于不的期望值. 

按这个表述，问题就可以不必局 限于足 只取 0，1 两个值的情 
形•事实也是如此•这就是较一般情况下的大数定理.“大数”的意 
思，就是指涉及大量数目的观察值足，它表明这种定理中指出的 
现象，只有在大量次数的试验和观察之下才能成立.例如 ，一 所大 
学可能包含上万名学生，每人有其身高.如果我们随意观察一个学 
生的身高，则与全校学生的平均身高 a 可能相去甚远.如 
果我们观察10个学生的身高而取其平均，则它有更大的机会与 a 
更接近些•如观察100个，则其平均又能更与 a 接近些.这些都是 
我们日常经验中所体验到的 事实. 大数定理对这一点从理论的高 
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度给予 概括和 论证. 

3.4.1 大数定理 

定理 4.1 设… ， X „ ，…是独立同分布的随机变量， 
记它们的公共均值为 a . 又设它们的方差存在并记为 <7 2 •则 对任 
意给定的 e >0 有 

limP (丨 X n - a | > e ) 二0 (又„见(4.1)) (4.2) 

(4.2) 这个式子指出了“当 n 很大时，叉„接近，’的确切含 
义: 它的意义是概率上的，不同于微积分意义下某一列数〜收敛 
于数 a . 按 (4.2) 只 是说: 不论你给定怎样小的 e >0， X „ 与^的偏 
离有否可能达到 e 或更大呢？这是可能的，但当 n 很大时，出现这 
种较大偏差的可能性很小，以致当 W 很大时，我们有很大的（然而 
不是百分之百的)把握断言叉„很接近 a . 拿上面学生身高的那个 
例子说，即使你抽了 100个以至1000个学生，你有没有绝对的把 
握说，这100个或1000个学生的平均身高一定很接近全校学生的 
平均身高 a 呢？没有，因为理论上不能排除这种可 能性： 你碰巧 
把全校中那100或1000个最髙的学生都抽出来了.这时你计算的 
X „ 就会与 a 有很大差距.但我们也能相信，如果抽样真是随机的 

(每一学生有同等被抽出的机会），则随着抽样次数增多，这样的可 
能性会愈来愈小.这就是 （4.2) 式的意思.像 （4.2) 式这样的收敛 
性，在概率论中叫做“又„依概率收敛于 a ”. 

为了证明定理4.1，需要下面的概率不 等式： 

马尔科夫不等式若 y 为只取非负值的随机变量，则对任给 
常数 e >0 有 

P ( Y >£)< E ( y )/ £ (4.3) 

设 Y 为连续型变量，密度函数为/(30.因为 Y 只取非负值， 
有/(30=0当 y <0. 故 

E ( Y ) = yf(y)dy > yf ( y)dy 

^ 0 ^ € 
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因为在 [e，°°) 内总有 ：y>e， 且 


°V(30d：y 就是 P(Y>e). 故 
^ £ 


E ( Y )^\ yf ( y ) dy > 

J € 


f ( y)dy = eP(Y ^ £> 

^ e 


即 （4.3L 当 Y 为离散型时证明相似，请读者自己完成. 

不等式 (4.3) 的一个重要特例为 
契比雪夫不等式 .若 Var( Y) 存在，则 

P( I Y - EY |>£)< Var(y )/ e 2 (4.4) 

为证此，只须在 （4.3) 式中以 [y-EY] 2 代 Y，e 2 代 e， 并注意 
P((y~£Y) 2 >e 2 )-P(! Y —£Y|>e) 即可. 

现在转到定理 4.1 的证明.利用契比雪夫不等式 (4. 4)，并注 


71 

意£(叉„) = ^!£ (Xy)/?z 二 na/n — a， 得 

i ― 1 

P ( \ X n ~ a \^ e Var( X n )/ e 2 (4.5) 

因为 X 〖，… ，尤独立，有 

Var(X„)= ~ 2 Var(X z ) = \na 2 - a 1 /n 

n , = i n ~ 

以此代入 (4.5)， 得 

P( I X n - a I ^ e £ t 2 /(?ze 2 ) — 0,当 ” 一 00 
这证明了 （4.2). 

定理 4.1 的一个重要特例，即前面提到的“频率收敛于概 率”: 

limP(|^ - 0 (4.6) 

ji ‘ — oo 

这个定理是最早的一个大数定理，是伯努利在1713年一本著作中 
证明的，常称为伯努利大数定理. 

大数定理的研究是概率论中一个很重要、古老且至今仍尚活 
跃的课题，有许多深刻的结果.例如，不用假定X的方差存在也 
可以证明 (4.2) 式: …不必同分布甚至也可以不独立（当然 
仍得有一定限制），收敛也可以改成其他更强的形式等.这些都超 
出本书的范围之外. 
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在概率论中，大数定理常称为“大数定律”.这个字面上的不 
同，也不见得有很特殊的含义.但是 ，“ 定理”一词往往用于指那种 
能用数学工具严格证明的东西，而“定律”则不一定是这样.如牛顿 
的力学三大定律，电学中的欧姆定律之类.这牵涉到一个从哪个角 
度去看的问题.像 (4.2) 式这样有确切数学表述，并能在一定的理 
论框架内证明的结果，称之为“定理”无疑是恰当的.可是，当我们 
泛泛地谈论“平均值的稳定性”（即稳定到理论上的期望值）时，这 
表述了一种全人类多年的集体经验，有些哲理的味道.且这种意识 
也远早于现代概率论给之以严格表述之前，因此，称之为“定律”也 
不算不恰当. 

3.4.2 中心极限定理 

中心极限定理的意义已在本节开始处阐述过了.如我们所曾 
指出的，这是指一类定理.下面的定理 4.2 是其中 之一： 

定理 4.2 设…，，…为独立同分布的随机变量， 
£(Xj = a ， Var ( X t ) = a 2 ,0< c 7 2 < oo .则对任何实数 x ， 有 

+ …+ X„ - m) < .r) ~ 0 ( x ) (4.7) 

oo \v na J 

这里步 (X) 是标准正态分布 iV (0， l ) 的分布函数，即 

1 r °° 2 

0( x ) = ~7=| n dt (4*8) 

v 27 T" -°° 

注意 + … + 有均值 na ， 方差 rzcr 2 . 故 

( X l + … + - na)/no) ‘ 

就是… + 的标准化，即使其均值变为 0 方差变为1，以与 

N (0，1) 的均值方差符合. 

(4.7) 告诉我们，虽则在一般情况下我们很难求出 Xi 十…+ 
X n 的分布的确切形式，但当 n 很大时，可以通过 0 U ) 给出其近 
似值.例如，若已知 a = 1,( T 2 =4, n = 100. 要求尸 （& 十…+ X 100 

<125) .因如=100，/^(7 = 20，把事件：^ 1 + 〜+ 叉 1 00<125改写 
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为 十〜+叉 100 - 100)/20<1.25，用（4.7)得到上述概率的近 
似值为步 (1.25) = 0.8944 .这里当然有一定的误差.有许多研究 
工作就是为了估计这种误差，也得出了一些深刻的结果.但是，这 
种误差估计要求对足的分布或其矩有一定的了解. 

定理 4.2 通称为林德伯格定理或林德伯格-莱维定理，是这两 
位学者在本世纪20年代证明的.“中心极限定理”的命名也是始于 
这个时期，它是波伊亚在1920年给出的.但定理 4.2 并非最早的 
中心极限定理.历史上最早的中心极限定理是定理 4.2 的一个特 
例，即当不由 （1.20) 式定义时，这时，如以前多次指出的，+… 
+ X „ 就是某事件 A 在《次独立试验中发生的次数.这个特例很 
重要，值得单独列为一条定理. 

定理 4,3 ，…， ，…独立同分布， X , 分布是 

P(X { = 1) - p,P(Xi = 0) = 1 - 户，0 < p < I 
则对任何实数1，有 


limP 


1 


np ( 1 一 p) 


( X" i — np) ^ x 



(4.9) 

定理 4.3 是定理 4.2 的特例，只须注意 E ( X t ) = pXX t ) 
=夕（1 - p ). 又此处& +… + 服从二项分布 BU ， p )， 故定理 
43是用正态分布去逼近二项分布.在第二章例 1.2 曾指出过用 
波哇松分布逼近二项分布 • 二者的应用 不同： （4.9)用于/>固定， 
因而当 n 很大时很大.而波哇松逼近则用于很小（可设想成 
户随? z 变化以趋向于 0) 但 np = X 不太大时.共同之点是 7 ?必须 
相当大. 


定理 4.3 称为棣莫弗-拉普拉斯定理，是历史上最早的中心极 


限定理.1716年棣莫弗讨论 1 p = 音的情形，而拉普拉斯则把它 
推广到一般户的情形. 

如果是两个正整数， qCQ . 则当 n 相当大时，按 （4.9) 
近似地有 
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PUi i + … + < t 2 ) ^ 0( 力 ）- ^(^i) (4.10) 

其中 

yi — — np)/\f np {l ~ p) ， /二 1，2 (4.11) 

我们指出 ：若把 M ， 力修正为 

_V1= 卜1 ― 皆 — 吵) / /^ p(l - p) 

yi^ (【2 + 士 一邱 ) /■/ np(\ - P) (4.12) 

再应用公式 (4.10)， 则一般可提高 
精度.其道理可以从图 3.7 看出. 
此图中每一矩形小条底边长为1， 
底边中点为非负整数 I 而矩形的 
高，就是户（& +… + X „ =幻，即 
二项概率 bik ' n ， p ) • 图中的曲线 
则是正态分布 N ( np ， npCl - p )、 
的密度函数的曲线.近似式 (4.10) 的意思，无非是用这曲线下的面 
积来近似代替这些矩形条的面积.可是细看图形 3. 7,可知，包括 
点~山+ 1，…，〖 2 ,这些小条在横轴上所占范围，是左起 t x - 1/2, 
右止/ 2 十1/2,故曲线下的面积，也应在这两个起止点之间去计 
算.这就是修正公式 (4.12) 的来由.当 n 很大时，这个修正并不很 
重要，但在 n 不太大时则有比较大的影响. 

例 4.1 设某地区内原有一家小型电影院，因不敷需要，拟筹 
建一所较大型的.设据分析，该地区每日平均看电影者约有 n 二 
1600人，且预计新电影院建成开业后，平均约有3/4的观众将去 
这新影院. 



现该影院在计划其座位数时，要求座位数尽可能多，但“空座 
达到200或更多”的概率又不能超过 0 . 1 . 问设多少座位为好？ 
设把每日看电影的人排号为1，2 …， 1600,且令 

1，若第；个观众去新影院 . 

0,若不然 1 : 


X 


1，..、1600 
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则按假定有 P{Xi = l )=3/4, P ( X I -0) = 1/4.又假定各观众去不 
去电影院系独立选择，则，…是独立随机变量. 

现设座位数为771，则按要求 


P ( X { + + X 1600 <m - 200 X 0.1 

在这个条件下取 m 最大.这显然就是在上式取等号时，因为 np 二 
1600.(3/4) = 1200,二 10乃，按 （4.12) 的修正 ， m 应 
满足条件 

① ((m - 200 + 音 -1200)/(10/3)) - 0.1 

查少 ( x ) 的表得知，当少(: r ) =0.1 时，: c 二 -1.2816' 由 

(m - 200 + 1/2 - 1200)/(10^) = - 1.2816 

定出 w =1377.31 〜1377.在本例中， （4.12) 式的修正没有什么影 
响. 


直到本世纪30年代，中心极限定理的研究曾是概率论的一个 
重要内容，至今仍是一个活跃的方向.推广的方向如独立不同分布 
以至非独立的情形，由中心极限定理而引起的误差的估计，以及与 
之相关联的问题如大偏差问题之类. 


习 题 

1. 计算对数正态分布的均值和方差（对数正态分布见第二章习题 19). 

2. 计算均匀分布 R( a ，6) 的峰度系数. 

3. 计算超几何分布的均值和方差. 

4. 一人有 iV 把钥匙，每次开门时，他随机地拿出一把（只有一把钥匙能 
打开这道门），直到门打开为止.以X记到此时为止用的钥匙数(包括最后拿 
对的那一把）.按以下两种情况分别计算 £(X):(a) 试过不行的不再放回去. 
(b) 试过不行的仍放回去. 


* 一般少 ( x ) 的表上只列出当少(: r )> l 々 时，1之值.若 0( x )< l /2, 则须先由公 
式中（-：0 = 1-#(1)(>1/2)査出—1再得出； ( ；.有的表列出的是由 2(1 —巾 （ j ：)) 之 
值求 iUX )) .这时对本例而言，应先由 2(1 - 中（: y )) = 0.2, 定出3；，再取： c 二即 
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5. 某县有 W 农户，其年收入分别为^，…，为估计平均收人 a = ( ai 
+… + a N )/ iV ， 随机不放回地抽出《农户 （ l < n < N )， 以，…，记所抽 
出的 n 农户的年收人，而以 X = (& +… + X„)/n 去估计 a . 计算 E ( X)m 

Var ( X ). 

6. —盒中有《个不同的球，其上分别写数字1，2,…，1每次随机抽出1 
个，登记其号码，放回去，再抽 ，一 直抽到登记有 r 个不同的数字为止.以 X 
记到这时为止的抽球次数，计算 E ( X ). 

7. 把 r 个球随机地放入 7 z 个盒子中，以 X 记空盒个数，计算 JE ：( X ) .此 
题如直接从计算 = 出发很难，但用下述步骤可以解决. 

( a ) 以九 （ r ， n ) 记 r 个球随机放入 n 盒恰有々个空盒的概率，用全概率 
公式 证明： 


p k (r + l , n ) = p k ( r y n ) - ~ ^ + p k + i ( r , n ) (1) 

n n 

( b ) 以叫记题中要计算的均值 £( X ) .由 （ a ) 中得出的公式⑴两边乘々 
对々求和，证明 

w r+1 = ( l - ^) m r , r - 0，1，2,… 

再由 即得？ n r =?!(l - 士). 

8 •设 《为自然数，/(上）=(：/(1 +工 2 )'找常数 C , 使 /( jc ) 为概率密度 
函数，并计算其均值方差. 

9 •设 Xi , X 2 独立，都服从标准正态分布 iV (0, 1 ) .记 Yi = max ( X t , 
X 2 ), •计算 

10. 设独立，都服从卡方分布，而常数6非0非1，则 X ! + bX 2 
决不服从卡方分布. 

11. 设入， Y 独立，都服从标准正态分布，而 Z =( aX 2 -^ bY 2 )/( X 2 + 
Y 2 )， 其中为常数.计算 £( Z ) 和 Var ( Z ). 

12. 设随机变量 X 只取非负值，其分布函数为 FU )， 证明 ：在以 下两种 
情况都有 

E ( X ) = J o °°[ l - F ( x)Jdx (2) 

( a ) X 有概率密度函数 /( x ). 

( b ) X 为离散型，有分布尸 ( 入 = 々 ） =; p k ， k 二 0A ， 1 ， … 

注 :公式 （2) 对任何非负随机变量都对，并不限于 ( a ),( b ) 两种情况但证 
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明超出初等方法之外. 

13. 设 X 1? X 2 独立同分布，都只取正值，则必有等号当 
且仅当 X L , X 2 只取一个值时成立. 

注 :按此 题结论，也有£： ( X 2 / Xi ) > 1 ( &， X 2 地位平等），故 E ( & / X 2 ) 
E L\V 入、)> 1，但 U 】 /X 2 ) U 2 /X! ) e 1 . 

14. 设&，…，独立同分布，都只取正值.证 明： 

E {^^ x „) = i 

15. 设川 ，…， />„都界于0,1之间，记/>为它们的算术平均.作两串独立 

试验，每串各 n 次，在第一串中，事件 A 在各次试验中发生的概率，依次为 
灼，…，/ V 在第二串中，事件在各次试验中发生的概率始终保持为户，以 
心和 y 2 分别记在第一串和第$串试验中事件 A 发生的总次数.钲明 A ， 
有相同均值，而 Var ( Vi )^ Var ( Y 2 ) ，等号当且仅当/二… = p „ = 户时成 
立-试给这后一结论以一直观的解释. 

16- 设随机变量 X 只取 [0,1] 上的值.证明 Var (: r )< l /4, 指出等号达到 
的情况，把这结果推广到 X 只取 [ aj ] 上的值的情况. 

17. 在第一章例 1.2 中，若先到的人必等到后到的人来了为止，问先到 
的人平均要等多久？ 

18. 设 X 服从指数分布，试计算其中位数 m 以及 w 1 . 

19. 设 X 有概率密度函数 / U ). 令 〆 《) = £：| X - a | . 证 明：当 u 等于 
X 的中位数 m 时， /2( a ) 达到最小（这是中位数一个重要性质）. 

20. 解第二章27题，用如下的方 法:找 6,使 X + 6 Y 和 X - 的相关系 
数为0.这比用第二章的方法简单得多. 

21. 设独立，分别有概率密度函数 /( h ) 和.试求 F = 
X t X 2 的密度函数，并用所得结果证明 

E(Y) = E(K l )E(X 2 ) 
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第四章参数估计 

4.1 数理统计学的基本概念 

从本章起，我们转人课程的第二部分——数理统计学.数理统 
计学与概率论是两个有密切联系的姊妹学科.大体上可以说 :概率 
论是数理统计学的基础，而数理统计学是概率论的重要应用. 

数理统计学是一门应用性很强的学科，有其方法、应用和理论 
基础.在西方，“数理统计学”一词是专指统计方法的数学基础理论 
那部分而言.在我国则有较广的含义，即包括方法、应用及理论基 
础都在内，而这在西方是称为“统计学'在我国，因为还有一门被 
认为是社会科学的统计学存在，这两个名词的区别使用，有时是必 
要的. 


4.1.1 什么是数理统计学 

当我们用试验或观察的方法研究一个问题时，首先要通过适 
当的观察或试验以取得必要的数据，然后就是对所得数据进行分 
析，以对所提问题作出尽可能正确的结论.为什么说“尽可能正确” 
呢？因为数据一般总是带有随机性的误差.需要指出的是，这里指 
的误差，不单是通常意义下的因测量不准而招致的误差，例如测量 
一个人的高度，因仪器和操作的原因必然有一定的误差——自然， 
这种误差也是构成数据的误差的一个可能的来源.这里所说的数 
据误差，主要指的是由于观察和试验所及 ，一 般只能是所研究的事 
物的一部分，而究竟是哪一部分则是随机的.例如一个学校有上万 
名学生，你从中抽出50人来研究该校学生的学习情况，抽取的结 
果(那50个人)不同，所得数据就不同，这完全凭机会定.我们说的 
随机误差主要是指这个.由于数据带有这样的随机性，通过分析这 
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些数据而作岀的结论，也就难保其不出错了.分析方法的要旨，就 
在于使可能产生的错误愈小愈好，发生错误的机会愈小愈好，这就 
需要使用概率论的工具，在此我们就可以初步看出概率论和数理 
统计学的密切关系. 

数理统计学就是这样一门学科.•它使用概率论和数学的方法， 
研究怎样收集（通过试验或观察）带有随机误差的数据，并在设定 
的模型（称为统计模型）之下，对这种数据进行分析（称为统计分 
析），以对所研究的问题作出推断（称为统计推断）.让我们举一个 
例子来说明这些概念. 

例 1.1 某工厂生产大批的电子元件.按第二章例 1.7 的理 
论，我们认为有理由假定元件的寿命服从指数分布，见第二章 
(1.20) 式.在实际应用中，我们可以提出许多感兴趣的问题.例 如: 

1. 元件的平均寿命如何？ 

2. 如果你是使用单位.要求平均寿命能达到某个指定的数/， 
例如5000小时.问这批元件可否被接受？ 

在此，“元件寿命服从指数分布”提供了一个数学模型，即本问 
题的统计模型(参见例 1.3 中的补充说明）.如果你知道了该分布 
中的参数 A 之值，则据第三章例1.4,我们知道平均寿命 1/ A ， 于 
是上面两个问题马上就可以得到回答.但在实用上 A 往往是未 
知，于是我们就只好从这一大批元件中随机抽出若干个，例如„ 
个，并测出其寿命分别为 Xi ， …， X 。，这72个元件如何选取？主要 
是要保证这大批兀件中，每一件有同等的被抽出的机会，而这并不 
是很容易办到的事情，需要想些办法，既能减轻工作量，又能尽可 
能保证上述同等机会的要求. 

_有了数据 ，…， 后 ，一 个自然的想法 是：用 其算术平均值 
又 =(& +… + 去估计未知的平均寿命 1/； L 当然， X 不一 

定恰好等于 1/ A . 但实际问题中，我们不会也不可能要求所作的估 
计一丝不差.但误差可能有 多大？ 产生指定大小的误差的机会(概 
率)有多大？为了使这概率降至指定的限度（例如，0. 1) ，抽出的元 
件个数《至少应达到多少？这些问题的解决方法及有关理论，就 
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是数理统计学的内容. 

本例提出的第一个问题称为参数估计问题，因为 A 是元件寿 
命分布中的一个未知参数，而我们的问题是要估计由 A 决定的一 
个量，即 1/A. 也可以把问题提为要求估计参数 A 本身，这时我们 
可考虑使用 1/X( 参见例 2.2) .参数估计是最重要的统计问题之 

现在来谈第二个问题.可能认 为：至 少就本例而言，解决了第 
一个问题也就解决了第二个问题，因为，既然用X去估计平均寿 
命，那就看X是否不小于指定的数/.若尤>〖，则接受该批产品， 
不然就不接受. 

应当承认，这也是一个可以考虑的解法.但还应注意到，如上 
文所指出 的：因 X估计平均寿命有误差，我们得根据实际需要进 
行一定的调整.即把接受的准则定为是某个选定的数， 
可以大于、等于或小于 G 定得大些，表示我们的检验更严格，这 
在对元件质量要求很高且供货渠道较多时可能是适当的.反之，“ 
定得小些，表示检验更宽，这在对元件质量要求不很高，或急需这 
些元件而供货渠道很少时，也可能采取.从统计上说，无论你怎么 
定/1，理论上你都可能犯两种错误之 一 ：一 1 是兀件平均寿命达到 
需求而被你拒收了，一是元件平均寿命达不到需求而被你接受了. 
这两种错误各有一定的概率，它们在很大程度上决定了接受准则 
X > l x 中的6的选择. 

第二个问题与第一个问题 不同： 它不是要求对分布中的未知 
参数作出估计，而是要在两个决定(就本问题而言就是接受或拒收 
该批产品）中选择一个.这类问题称为假设检验问题，也是最重要 
的统计问题之一. 

4.1.2 总体 

总体是指与所研究的问题有关的对象(个体）的全体所构成的 
集合.如在例 1.1 中，那一大批元件就是问题的总体，而每一单个 
元件就是一个个体,所有这些个体就构成问题的总体. 又如： 
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例 1.2 要研究某大学学生的学习情况，则该校的全体学生 
构成问题的总体.每一个学生则是该总体中的一个个体. 

总体随所研究的范围而定.如在上例中，若你研究全国大学生 
的学习成绩，则总体就大多 了：它 包含全国所有在学的大学生.总 
体如何定，取决于研究目的，也受人力物力时间等因素的限制. 

对于大多数实际问题，总体中的个体是一些实在的人或物，而 
问题中所注意的，并不在于这些人或物本身，而在于所关心的某种 
指标.例如一个学生有身高体重姓氏笔划籍贯出身……等特征，当 
我们研究学生学习成绩时，对这些都不关心，而只注意其考分如 
何.在例 1.1 中，我们只注意元件的寿命如何.这样，也可以把我们 
感兴趣的那个指标值就作为该个体（例如，大学生 A 得90分，即 
以90这个数代替 A ) ，而总体就由一些数所组成. 

单是这样还不行.这里有两个问题 :一是 总体中这样一大堆杂 
乱无章的数没有赋予什么数学或概率的性质，因而无法使用有力 
的概率论工具去研 究它； 二是各种总体变得没有区别.例如，大学 
生的学习成绩也是一堆数，一大批元件的寿命也是一堆数，大家都 
一样了.解决这些问题的途径，就涉及总体这个概念的核心——总 
体的概率分布.例如，在例 1.1 中元件寿命分布为指数分布，例 
1.2 学生的学习成绩可以假定为服从正态分布.总体分布不同，分 
析的方法也就不同，赋有一定概率分布的总体就称为统计总体. 

因此，经过以上几步的分析，我们就得出在数理统计学中“总 
体”这个基本概念的要旨——总体就是一个概率分布.当总体分布 
为指数分布时，称为指数分布 总体； 当总体分布为正态分布时，称 
为正态分布总体或简称正态总体，等等.两个总体，即使其所含个 
体的性质根本不同，只要有同一的概率分布，则在数理统计学上就 
视为是同类总体.例如人的寿命也可以服从指数分布，它与元件寿 
命的分布一样，处理二者的统计问题的方法也一样，即可视为同一 
类总体. 

对以上所说的要作一点说明 ：如例 1.1 所显示的，虽然我们假 
定了元件寿命服从指数分布，但并没有指定其中参数 A 之值.既 
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然 A 未知，原则上 A 可取0到〜内任何值，故更正确地应当 说：总 
体分布是一个概率分布族(在此为指数分布族）的一员.这分布族 
包含一个参数 A ，称为单参数分布族.例 1.2 的总体分布——正态 
分布 AK；/，a 2 )， 包含两个参数^和 a 2 (p 可取任何实数值而 a 2 只 
能取大于0的值），是一个两参数分布族.另外，在有些情况下，我 
们只是假定总体有一定的概率分布而并不明确知道其数学形式. 
如在例 1.1 中，也可以只承认寿命有一定的概率分布函数 F(x)， 
F ( 0 )= 0( 因寿命总大于 0) ，其他别无所知.这时，总体分布不能通 
过若干个未知参数表达出来，这种情况称为非参数总体.对非参数 
总体，虽不知其数学形式，但统计问题照样可以提出来.例如估计 
平均寿命的问题，不假定元件寿命分布为指数分布也有意义，且使 
用叉去估计平均寿命看来仍是一个合理的方法.自然，由于分布的 
形式未知，进一步的讨论困难就更大，这些在以后会逐步指明. 

上面所讲的总体概念，在很大程度上要归功于数理统计学最 
主要的奠基者，伟大的英国统计学家 R. A . 费歇尔.他引进了“无 
限总体”这个概念——现实问题中，当所考察的个体是由一些看得 
见、摸得着的对象所构成时（如例1.1，1.2)，总体总是有限的.有 
限总体相应的分布只能是离散的，其具体形式将与个体总数有关 
且缺乏一个简洁的数学形式，这会使有力的概率方法无法使用.引 
进无限总体的概念，在概率论上相当于用一个连续分布去逼近离 
散分布 •当 总体所含个体极多时，这种逼近所带来的误差，从应用 
的观点看已可以忽略不计.更好的是，事实证 明：几 种常见且在概 
率论上较易处理的分布，如指数分布和正态分布等，尤其是正态分 
布，对许多实用问题的总体分布给出了足够好的近似，而围绕着这 
些分布建立了深入而有效的统计方法. 

最后，关于总体这个概念还需要说明一个问题.从一个例子入 
手，设有一个物体，其真实的重量 a 未知，要通过多次量测的结果 
去估计它.请问在这个问题中总体是什么？若不假思索，可能回答 
说 ：因为 与所研究的问题有关的对象，就只这个物体，故这个物体， 
或者其重量心就构成总体，这个回答不对.其所以不对，一则因为 
. 154 • 




a 未知.即使 a 已知（这时自然不存在估计它的问题，但量测其重 
量仍有意义，例如，可能是为了考察天平的准确程度如何），这个回 
答仍不对.因为你既然通过量测，那么，你所研究的问题，实质上是 
“通过量测结果去估计 a 之值其精度如何”.这样，每一个可能的 
量测结果都是一个个体，而总体是由“一切可能的量测结果”组成. 
这只是一个想像中存在的集合，因为不可能去进行无限次量测，把 
所有可能的量测结果 一一 列出来.这与我们前面几个例子中那种 
看得见摸得着的总体不同 :这里 的总体只是在想像中存在，它的个 
体是通过试验“制造”出来的——每秤一次，就制造出一个量测值. 
这种情况在实际应用中非常之多.给这种总体规定分布也一样.拿 
本例来说，只须说一句“量测结果服从某某分布（如正态分布 ）” 就 
行.如果不绕这么一个圈子，而直 接说: 量测结果是随机的，它服从 
某某分布，可能读者会感到更易接受.上述分析是为了突出统计总 
体这个概念的这种抽象形式，以体现这个概念的普遍性. 

在某些统计学著作中，也常把总体称为“母体”. 

4.1.3 样本 

样本是按一定的规定从总体中抽出的一部分个体.所谓“按一 
定的规定”，就是指总体中的每一个个体有同等的被抽出的机会， 
以及在这个基础上设立的某神附加条件. 

由于我们的兴趣不在于个体本身而在于其某一特征指标值， 
所得样本表现为若干个数据&，…，尤 . n 称为“样本大小”或“样 
本容量”，“样本量”.样本 X : ，…， 中的每一个足也称为样本. 
有时，为区别这种情况，把&，…，的全体称为一“组”样本，而 
X ,称为其中的第/个样本. 

在一个具体问题中，样本，…，&是一些具体的数据.而在 
理论的研究上，则要把它看成为一些随机变量.因为抽到哪一些个 
体是随机的，因而其指标值， gp A ，… ，& ，也是随机的. 

设想样本是一个一个地抽出来.第一次抽时，是从整个总体中 
抽一个.因而的分布也就与总体分布相同•如果这一个不放回 
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去，到第二次抽时，总体中已少了一个个体，其分布有了变化，因此 
x 2 的分布会与&的分布略有差别.但是，如果总体中所包含的 
个体极多，或如理论上设想的，总体中包含无限多个体，则抽掉一 
个或几个，对总体的分布影响极少或毫无影响.这时 ， Xi ，…， 
独立且有相同的分布，其公共分布即总体分布.这是在应用上最常 
见的情形，也是理论上研究得最深入的情形，本节主要考虑这种情 
况.在数理统计学上，称这种情况为：，…，是从某总体中抽 
出的独立随机样本，或简称为从某总体中抽出的样本. 

当总体中所含个体数不太大时，情况就不同.考察以下的例 
子： 

例 1.3 设一批产品包含 N 个，内有废品 M 个， M 未知.因 
而废品率也未知.现从其中抽出 n 个逐一检查它们是否为废品， 
据此去 估计， 

如果把合格品记为0而废品记为1，则总体分布为离散分布 
P ( X 二1) = />，/ 3 (义= 0) = 1-户.设想样本是一个一个抽出的，结 
果记为，…，.如果抽样是有放回的，即每抽出一个作检查以 
后再放回去，下次仍有同等机会被抽，则 Xi ，…，为独立同分 
布，每一个的分布就是上述总体分布.若用 X = (:^ +…+ X n )/n 
(即样本中的废品率）去估计则因& +… + 服从二项分布 
BU ，/0( 见第二章例 1.1) .这个估计的统计性质就由此决定了. 

另一种抽样方式，即常见的作法，是一次抽出 w 个或一个一 
个抽但已抽出的不再放回.这时，用 X 估计/>仍是一个合理的选 
择，但因& + …+尤 已不是二项分布而是超几何分布(见第二章 
例 1.4) .这个估计的统计性质就与上面所讲的有所不同.当 N 不 
很大时，这个差别不可忽视. 

由此例可见，在有限总体的情况，单由总体分布已不足以完全 
决定样本的分布如何，要看抽样的方式.这样，抽样的方式也要作 
为一个要素加人到统计模型的内容中来.在无限总体的情况，或者 
是有限总体而抽样有放回的情况，按第二章定义3.1，总体分布完 
全决定了样本的分布，故就可以把总体分布等同于统计模型. 
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4.1*4 统计置 


完全由样本所决定的量，叫做统计量.这里要注意的是“完全” 
这两个字.它 表明： 统计量只依赖于样本，而不能依赖于任何其他 
未知的量.特别是，它不能依赖于总体分布中所包含的未知参数. 
例如，设 X x ,-^ X n 是从正态总体 iV ( p ， cr 2 ) 中抽出的样本， 

则又 + … + X „)//2 是统计量，因为它完全由样本 A ，…， 

决定 . X -" 不是统计量，因为"未知， X -" 并不完全由样本所 
决定. 

统计量可以看作是对样本的一种“加工”，它把样本中所含的 
(某一方面的）信息集中起来.例如，上述 X 可用于估计未 知的… 
可以这样 看:原 始数据 X u …， X „ 中的每一个，都包含 有；/ 的若 

干信息，但这些是杂乱无章的，一经集中到 X ，就有了更明确的概 
念.所以，有用的统计量都是“有的放矢”的，针对某种需要而构造 
的■如在上例中，若想了解有关总体方差 a 2 的情况，则统计量 X 没 
有什么用•从方差是反映散布度这方面去看，下面的统计量 

S 2 = S ( X ; - X ) 2 /(„- l ) (1.1) 

i — 1 

是有用的.因为 S 2 是样本 A ，…，的散布程度的一个合理的刻 

画，它应当与 a 2 有密切的关系， S 2 这个重要的统计量叫做“样本 
方差”. 

有一类重要的统计量叫做样本矩，分为样本原点矩和样本中 
心矩.设 A ，…，为样本 J 为正整数.则 

q =⑶ + …+ X k n )/n (1.2) 

称为々 阶样本原点矩 = X 是最重要的样本原点矩，它常称为 
“样本均值”.而 

m k = - 飞 f/n (1.3) 

称为々阶样本中心矩. 

在第三章定义 2.2 中，我们定义过随机变量 x 的々阶原点矩 
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&和々阶中心矩&.此处定义的 a k , ? n k 是它们的样本对应物.有 

时也把 A 和抑称为理论矩，而称为经验矩.这名词可以 
用如下的方式去解释 :设总 体分布 F 有(理论）矩由于不知 
道 F ， 也就不知道现在有从该总体中抽出的样本 X 1? — , 
，我们就构造一个分布去模拟 F . 由于手头这 n 个样本 Xp 

的地位是平等的，一个合理的选择是把取成一个离散 
分布，它在每个值 X E . 处各有概率 1/ W ， f 二1，…，77 .形式地，分布 
函数定义为 

F n ( x ) -丨&，… ，总中 的个数丨 /?7 (1.4) 

它称为样本 X 1 ,-, X „ 的经验分布函数.如果按第三章定义 2.2 
计算分布 F „ 的々阶原点矩和中心矩，则分别得到^ 和〃^ 所以， 
样本矩无非就是经验分布的矩. 

特别值得注意的二阶中心矩 m 2 .它与样本方差 S 2 只相差一 
个常数 因子： = 

n 

最有用的样本矩是一 、二 阶的 ，三、 四阶的也有些应用.四阶以 
上的则很少使用. 

有用的统计量很多，它们都是在解决种种统计推断问题时产 
生的，以后将结合这些问题来介绍. 

4.2 矩估计、极大似然估计和贝叶斯估计 

4.2.1 参数的点估计问题 

设有一个统计总体，以/( I ，^，…，久）记其概率密度函数(若 
总体分布为连续型的），或其概率函数(若总体分布为离散型的）， 
以后，为避免每次重复交代这两种情况，我们约定称 /( Z ，^，…， 
A ) 为“总体分布”，其具体含义视其为连续型或离散型而定.这分 
布包含々个未知参数心 ，… ，乂.例如对正态总体 JV ("， a 2 )， 有力 
二"， 0 2 = fj 2 , 而 
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yUA ，0 2 ) = l exp (— 去(工~的) 2 )， -co < x < oo 

若总体有二项分布 S(n， 户），贝! 1 h = 而 

(n \ 

fix’dO 二 md - e x ) n ^^ = o ， i，."，” 

\x! 

当6=1，即只有一个参数时，就用 0 代替 

参数估计问题的一般提 法是： 设有了从总体中抽出的样本 
&，…， X ,(在 4.1 节 4.1.3 段中已说明过，当不作特殊申明时，样 

本就是指独立随机样本，即 Xi ，…， X „ 独立同分布，其公共分布就 
是总体分布），要依据这些样本去对参数 d x ，…， e k 的未知值作出 
估计.当然，我们也可以只要求估计&，•••，&中的一部分，或估计 
它们的某个已知函数&(&，•- ，久） .例如，为要估计我们需要 

构造出适当的统计量心，…，每当有了样本 X ,，-, 

A ， 就代入函数 id ，…， x „) 算出一个值，用来作为 h 的估计 

值.为着这样的特定目的而构造的统计量叫做 （ A 的）估计量. 

由于未知参数 A 是数轴上的一个点 ，用& 去估计化，等于用一个 
点去估计另一个点，所以这样的估计叫做点估计，以别于将在 4.4 
节讨论的区间估计. 

在本节中我们要讨论几种常用的点估计方法，这些方法大多 
是基于某种直观上的考虑.同一个参数往往可以用若干个看来都 
合理的方法去估计.因此有一个判断优劣的问题，这就要为估计量 
的优劣制定准则，进而研究在某种准则下寻找最优估计量的问题. 
这就是参数估计这个数理统计学分支的重要内容.这些概念将在 
以后作更具体的解释. 


4.2.2 矩估计法 

矩估计法是 K . 皮尔逊在上世纪末到本世纪初的一系列文章 
中引进的.这个方法的思想很简单：设总体分布为 fix ,8^-, 
心），则它的矩（原点矩和中心矩都可以，此处以原点矩为例） 
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'oo 

a m = oc m f{x ,6 k )dx 

^ oo 

(或 ，氏，…為 )） 

i 

依赖于心，…， ^ .另一方面，至少在样本大小 n 较大时 ，《 m 又应 
接近于样本原 点矩〜 .于是 

n 

a m 二 a m (6 1 r- 9 6 k ) ^ a 7n = XT/n 

I ■二 l 

取 m = i ， …， i 并让上面的近似式改成等式，就得到一个方 程组： 

〜（汐 1 ，".，％) = a m ，m 二 1 ,…，走 ( 2 . 1 ) 

解此方程组，得其根 & = 尤），纟=1，…， t 就以良作为 

9 { 的估计 . f = i ， …，会 .如果要估计的是 8 U …、 d k 的某函数 gMi ， 

…，九），则用备=备（&，…，足）=《（&，…，心）去估计它.这样定 
出的估计量就叫做矩估计. 

我们来举几个例子说明这个方法. 

例 2.1 设 Xi ，…，是从正态总体^(广，^)中抽出的样 
本，要估计"和是总体的一阶原点矩，按矩估计，用样本一 
阶原点矩即样本均值 X 去估计之 . ^是总体方差，即总体二阶中 
心矩，可用样本二阶中心矩 m 2 去估计.一般，在估计方差时常用 

样本方差 d 而不用 m 2 , 即对矩估计作了一定的修正.这种修正的 
理由将在下节中指出. 

如果要估计的是标准差〜则由 a 二 vV 2 , 按矩估计法，它可 

以用去估计 ，一 般用 V ? = s 去估计，或者还作点修正（见下 
节）.又当 JU 9^0 时(特别在">0时，在有些问题中"虽未知，但事 
先可知">0.如例1.2，"是该校大学生的平均成绩，它必须大于 
0)^今称为总体的变异系数——变异系数是以均值为单位去衡 
量的总体的标准差.在有些问题中，反映变异程度的标准差意义如 
何，要看总体均值// 而定. 比如一大群人收人的标准差为50元. 
若其平均工资只有70元，则这个变异程度可算很大了，但若平均 
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1: 资为 850 元，则这变异程度不算大•所以，变异系数不过是 
一定意义下的“相对误差”.按矩法，为估计 a ///， 可用/^/又,一 
般用 5/ X . 

例 2.2 设：^，…，尤是从指数分布总体中抽出的样本，要 
估计参数 A 的倒数 1/ A . 前已指出 ：1/ A 就是总体分布的均值，故 
按矩法，就用 X 去估计之.如要估计的是参数 A 本身，就用1/文. 

另一方面，如在第三章例 2.5 中指出的，指数分布的方差为 
1/ A 2 , 即 1/ A =/ 总体二阶中心矩.按矩法， 1 /A 也可以用 v ^ T 2 (或 

d 去估计.这个估计与又哪个更好？这就是需要研究的问题，见下 
节. 

例 2.3 设；^，… ，尤 是从区间[^，0 2 ]上均匀分布的总体 
中抽出的样本，要估 计仏， 0 2 . 

前已指出（见第三章例 1.3 和例 2.5) .这总体分布的均值、方 
差分别为（仏+ 6 2 )/2 和（心 - 6^) 2 /12.因此按矩法，建立方程 

X =：((?! + 9 2 )/2,m 2 = (d 2 - 0 i ) 2 /12 

得出 d '，0 2 的解心分别为 

6{ = X - V 3 w 2 , ㊂2 - X \ Thnt 2 (2.2) 

也可以用 x 代替 

例 2.4 在第三章 (2. 8)， （2.9) 式中曾定义了分布的偏度系 
数仏 = 4及峰度 系数馬 (或馬-3)，并阐述了它的意义.根 

据矩法，这些量可分别用^和1去估计之. 

m 2 饥2 

本例与前几例不同之处在 于：它 并不要求总体分布有特定的 
参数形式，如正态分布，指数分布之类.总体分布为任何分布都可 
以，只要其三价(对仏 ） 或四阶（对 ft ) 矩存在就行.凡是被估计的 
对象能直接用矩表达出来时，都属于这种情况，其中最重要的例子 
是均值方差.只要总体分布的均值方差存在，则总可以用样本均值 
叉或样本方差 S 2 去估计之，而不论其分布有如何的形式.不过，在 


» 
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总体分布已知有某种参数形式时，总体的均值方差也可以有比 X 
或 S 2 更好的估计(见后面有关的例子）. 

例 2.5 设总体有二项分布 B ( N , p ), X x r -, X n 为从该总 

体中抽出的样本.要 估计户 ，矩估计为 X // V . 

例 2.6 设总体有波哇松分布尸以），；^，…，；^为从该总体 
中抽出的样本，要估计; I . 

由于 A 是总体分布的均值，按矩估计法，用样本均值又去估计 
之； 另一方面， A 也是总体分布的方差，故按矩法，也可以用 m 2 或 
S 2 去估计•这又有一个优劣的问题.对本例及例 2.2 来说，在合理 
的准则下，都可以证明用样本均值 X 为优.在一般情况下通常总是 
采取这样的 原则： 能用低阶矩处理的就不用高阶矩， 

4.2.3 极大似然估计法 

设总体有分布 /( x ; h ， …為），&，…，\为自这总体中抽 

出的样本，则样本（&，…， 及） 的分布（即其概率密度函数或概率 
函数）为 

x 2 'd u …， d k ) … f(x n * ， d u …， d k ) 

记之为 L ( X x x n ； e u -,9 k ). 

固定 d x ，…， d k 而看作是又〗，…，的函数时， l 是一个概率 
密度函数或概率函数，可以这样理解 ••若 l ( a ，…，八；仏，…，久） 
> LU 】， 久），则在观察时出现 （ ，…， YJ 这个点 
的可能性，要比出现 Ui ，…，这个点的可能性大，把这件事反 
过来说，可以这样想 ：当已 观察到义，…，；^时，若 L ( X u -, X n ； 
6，"*，6)>匕（&，…，尤； C ， …，^ ) ，则被估计的参数 （仏， 
…為）是 （（ … ，爲） 的可能性，要比它是（％, ••.，<)的可能性大. 

当叉1，…，固定而把[看作 h ，…， ％的函数时，它称为 
“似然函数”.这名称的意义，可根据上述分析得到理解：这函数对 
不同的，…，仏)的取值，反映了在观察结果（ X !，… ，尤） 已知的 
条件下，（(?1，…， A ) 的各种值的“似然程度”.注意这里有些像贝叶 
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斯公式中的推理（见第一章 （3.18) 式） •.把 观察值义，…，看成 
结果而参数值(化，…，％)看成是导致这结果的原因.现已有了结 
果，要反过来推算各种原因的概率.这里参数 di ，…， d k 有一定的 
值(虽然未知），并非事件或随机变量，无概率可言，于是就改用“似 
然”这个词 .. 

从上述分析就自然地导致如下的 方法: 应该用似然程度最大 
的那个点 （0 r ，…， d :) ，即满足条件 

，…， d:) 

二 maxL(Xi ， … ， X n \d' ， (2.3) 

Q V … ' d k 

的 wr ，…， 〜"） 去作为（心，…， a ) 的估计值，因为在已得样本 

…，入„条件下，这个“看来最像”是真参数值.这个估计（以，…, 

et ) 就叫做 d ，…，仏）的“极大似然估计”.如果要怙计的是 g ( d { , 

… A )， 则 ，…，以） 是它的极大似然估计. 

因为 


logL = YjlogfXX ^ di ， …， d k ) (2.4) 

/-I 

且为使 L 达到最大，只须使 bgL 达到最大，故在/对％，…，久存 
在连续的偏导数时，可建立方程组（称为似然方程 组）： 



ddi 




m • m 



(2.5) 


如果这方程组有唯一的解，又能验证它是一个极大值点，则它必是 
使 L 达到最大之点，即极大似然估计.在几个常见的重要例子中 
这一点不难验证.可是，在较复杂的场合，方程组 (2.5) 可以有不止 
一组解，求出这些解很费计算，且不易判定那一个使 L 达到最大. 

有时，函数/并不对％，…，久可导，甚至/本身也不连续，这 
时方程组 （2.5) 就无法用，必须回到原始的定义 2 . 3 . 

现举一些例子来说明求极大似然估计的过程. 

例 2.7 设是从正态总体 iV (", a 2 ) 中抽出的样 
本，则似然函数为 
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^ = II (/y^ 2 )~ lex p(~ 2a^ Xi - A)”. ( 2 - 6 ) 

I = 1 

logL 二 - ~log(27r) - 号 log(a 2 ) - ~2^2(Xi - //) 2 


求方程组 (2.5)( 把 a 2 作为一个整体 看）: 


31ogL 

d ! 义 


n 


_2 


- 户 ）= o 


31ogL _ 

au 2 )— 

由第一式得出"的解为 


2a 1 



n 

^ - 2 x i / n = x 
以此代入第二式的得到 ¥ 的解为 


= 2( X . -x) 2 /n - m 2 

i = \ 

我们 看到： p 与 a 2 的极大似然估计; u * 和与其矩估计完全一 
样.在本例中，容易肯定 ( P '， 2 ) 确是使似然函数 L 达得最大值 
之点.因为，似然方程组只有唯一的根 （ p * ，〃 #2 )，而这个点不可 
能是 L 的极小值点.因为，由 Z * 的表达式 (2.6) 可知，当 | // 1 — 

或时， L 趋向于0,而 L 在每个点处都大于0.以下几个例 
子都可以按照这个方式去验证，我们就不 一一 重复了. 

例 2.8 设 Xj ， …，；是从指数分布总体中抽出的样本，求 
参数 A 的极大似然估计. 

有 

L 二 II(Ae^0 

1 = 1 

故 


logh ; nlogX 一 A 


解方程 
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51orL n ▽ y - _ r> 

得； i 的极大似然估计为 

A" = «/ 2 x, = l/x 

i - 1 

仍与其矩估计一样.但是在这里，极大似然估计只有一个，而如在 
例 2.2 中所指出的， A 的矩估计依使用不同阶的矩，可以有几个. 

例 2.9 设；^ ，…， 是从均匀分布 i ?(0, 60的总体中抽出 
的样本，求6的极大似然估计. 

X ,的密度函数为1/0，当0<又<0,此外为0.故似然函数 L 
为 

L _\ e ~\ 当 o < x t < e，i 二 1，…， 《 

~ lo , 其他情况 

对固定的&，… ，尤 ，此函数为0的间断函数，故无法使用似然方 
程 (2.5) .但此例不难直接用最初的定义 2.3 去解决 :为使 L 达到 
最大，0必须尽量小，但又不能太小以致 L 为0.这界线就在= 
maWA ，…， 处：当 时， L 大于0且为没—'当 6<6* 
时， L 为0.故唯一使 L 达到最大的0值，即6的极大似然估计，为 


如果用矩估计法，则因总体分布的均值为0/2，0的矩估计为 

6 =2 X . 这两个估计的优劣比较将在后面讨论. 

例 2.10 再考虑例 2. 5,有 

n [0 A '( n ) N - x ' 

logL = XI l°gf v ) + S Xjlog/? + X] (N - X^logCl - p) 

i=l \ A i/ i-1 i^\ 

作方程 


31ogL 

dp 


1 

P 


玄 ' —(nN - ^ 

i=l i = 1 



此方程之解，即 p 的极大似然估计，为二 X / N ， 与矩估计相 
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同 • 

例 2.11 考虑例 2. 6.容易 证明： A 的极大似然估计二 X ， 
与矩估计相同. 

在我们所举的这些例子中（这些例子都是在应用上最常见 
的），矩估计与极大似然估计在多数情况下一致，这更多地是一种 
巧合，并非一般情形.有意思的 是：在 这些例子中这两种估计方法 
结果一致，说明这些估计是良好的.这一点当然还需要一定的理论 
证明. 

也有这样的情况，用这两个估计方法都行不通或不易实行.下 
面是一个例子. 

例 2.12 设总体分布有密度函数 - 

/(x ' 0) = ;rr+ (in - C0<x<00 (2 - 7) 

这分布包含一个参数可取任何实数值.这分布叫柯西分布， 
其密度作为 X 的函数，关于0点对称.故0是这个分布的中位数 
(见第三章 3.1.4). 

现设为自这总体中抽出的样本，要估计0.由于 

,00 

I X \f(x , 6)6x = 00 

J 一 GO 

柯西分布的一阶矩也不存在，更不用说更高阶的矩了.因此，矩估 
计无法使用.若用极大似然法，则将得出方程 

v u — n 

这方程有许多根且求根不容易.因此，对本例而言，极大似然法也 
不是理想的方法. 

为估计参数0，有一个较简单易行但看来合理的方法可用.这 
个方法是基于0是总体分布的中位数这个事实.既如此，我们就 
要设法在样本&，…，中找一种对应于中位数的东西.这个思 
想其实在矩估计法中就已用过，因为总体矩在样本中的对应物就 
是样本矩. 
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现在把 Xi ，- f x n 按由小到大排成 一列： 

X ⑴ < X (2) < …< X u) (2.8) 

它们称为次序统计量.既然中位数是“居中”的意思，我们就在样本 
中找居 中者： 


. 二 + 当”为奇数时 
m ~\{ x inn) + x U /2+1 )) a ， 当”为偶数时 * 

当《为奇数时，有一个居中者为 + 1)/2) ;若 w 为偶然，就没有 

一个居中者，就把两个最居中者取平均，这样定义的 m 叫作“样本 


中位数”.我们就拿 A 作为0的估计. 

就正态总体 iNKpw 2 ) 而言，"也是总体的中位数，故 p 也可 
以用样本中位数去估计.从这些例子中，我们看出一点:统计推断 
问题的解，往往可以从许多看来都合理的途径去考虑，并无一成不 
变的方法，不同解固然有优劣之分，但这种优劣也是相对于一定的 
准则而言.并无绝对的价值.下述情况也并非 不常见 :估计 甲在某 
一准则下优于乙，而乙又在另一准则下优于甲. 

极大似然估计法的思想，始于高斯的误差理论，到1912年由 
R . A . 费歇尔在一篇论文中把它作为一个一般的估计方法提出 
来.自20年代以来，费歇尔自己及许多统计学家对这一估计法进 
行了大量的研究.总的结论是 ：在各 种估计方法中，相对说它一般 
更为优良，但在个别情况下也给出很不理想的结果.与矩估计法不 
同，极大似然估计法要求分布有参数的形式.比方说，如对总体分 
布毫无所知而要估计其均值方差，极大似然法就无能为力. 


4.2.4 贝叶斯法 


贝叶斯学派是数理统计学中的一大学派.在这一段中，我们简 
略地介绍一下这个学派处理统计问题的基本思想. 

拿我们目前讨论的点估计问题来说，无论你用矩估计也好，用 
极大似然估计或其他方法也好，在我们心目中，未知参数0就简 
单地是一个未知数，在抽取样本之前，我们对0没有任何了解，所 
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有的信息全来自样本. 

贝叶斯学派则不然，它的出发点 是:在 进行抽样之前，我们已 
对0有一定的知识，叫做先验知识.这里“先验”的意思并非先验 
论，而只是表示这种知识是“在试验之先”就有了的，也有人把它叫 
做验前知识，即“在试验之前”的意思. 

贝叶斯学派进一步 要求： 这种先验知识必须用 (9 的某种概率 
分布表达出来，这概率分布就叫做6/的“先验分布”或“验前分 
布”.这个分布总结了我们在试验之前对未知参数的知识. 

举一个例子.设某工厂每日生产一大批某种产品，我们想要估 
计当日的废品率6.该厂在以前已生产过很多批产品，如果过去的 
检验有记录在，则它确实提供了关于废品率6的一种有用信息， 
据此可以画出0的密度曲线，如图 4.1( a ), ( b ). 



( a ) ( b ) 

图 4.1 

图中/ 2 ( 0 )表示0的密度函数， O <0<1. ( a ) 表示一个较好的 
情况 4(0) 在0 = 0附近很大而当0增加时，下降很快.这表示该 
厂以往的废品率通常都很低 .（ b ) 则表示一个不大好的情况 ：比较 
大的废品率出现的比率相当高•容易理 解：这 种关于0的历史知 
识（即先验知识），在当前估计废品率0时，应适当地加以使用而 
不应弃之不顾.这种思想与我们日常处事的习惯符合 ：当我 们面临 

一个问题时，除考虑当前的情况外，往往还要注意以往的先例和经 
验. 

问题就来了 ：如果这个工厂以往没有记录，或甚至是一个新开 

工的工厂，该怎么办？怎样去获得上文所指的先验密度々（(?）？贝 
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叶斯统计的一个基本要 求是： 你必须设法去定出这样一个 6(0)， 
甚至出于你自己的主观认识 # 也可以，这要成为问题中一个必备 
的要素.正是在这一点上，贝叶斯统计遭到不少的反对和批评，而 
一个初接触这个问题的人，也容易这 样想: “这怎么行？我没有根 
据怎么能凭主观想像去定出一个先验密度 A (们”.关于这一点，贝 
叶斯学派的信奉者有自己的一套说法，这问题非三言两语能说清 
楚.本书作者有一篇通俗形式的文章（见《数理统计与应用概率》 
1990年第四期， p . 389—400)，其中对这个问题及有关问题作了仔 
细说明，有兴趣的读者可以参考. 

现在我们转到下一个问 题：已 定下了先验密度之后，怎样去得 
岀参数 (9 的估计. 

设总体有概率密度 /( XJ ) (或概率函数，若总体分布为离散 
的），从这总体抽样本 X '，…， x n ，则这样本的密度为 f ( x u d) … f 
(尤 ，彡）.它可视为在给定0值时 ( Xi ，…，的密度，根据第二章 
(3.5) 式及该式下的一段说明， （ hXi ，…， X „) 的联合密度为 

… f ( x n ， d ) 

由此，算出 （ x , ，…， x „) 的边缘密度为 

P(X '， …， x n ) = h ( e ) f ( x u d ) … f ( x n ， d)dd (2,10) 

J 

积分的范围，要看参数的范围而定.如上例 0 为废品率，则0<0 
.若 <9为指数分布中的参数 A ，则 0< d < oo ，等等. 由 （2. 10)，再 
根据第二章的公式 （3. 4)，得到在给定 X 1 ,*", X „ 的条件下，0的 
条件密度为 

/2 ( 0 1 X j , • • * , X „) — h ( 6 ) f(Xi 9 d )*- f ( X n , 6 ) / p ( X l9 -- f X n ) 

( 2 . 11 ) 

照贝叶斯学派的观点，这个条件密度代表了我们现在（即在取得样 
本 X 1 T -, X „ 后)对 0 的知识，它综合了 0 的先验信息（以 M0 ) 反 
映)与由样本带来的信息•通常把 （2.11) 称为0的“后验（或验后） 

* 就是说，这里允许使用主观概率，见第一章 1.1 节. 
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密度”，因为他是在做了试验以后才取得的. 

如果把上述过程和我们在第一章中讲过的贝叶斯公式相比， 
就可以理 解:现 在我们所做的，可以说不过是把贝叶斯公式加以 
“连续化”而已，看下表中的比较. 



晒 

问题 

先验知识 

当前知识 

后验（现在）知识 

贝叶斯公式 

事件，…， 

中那一个发生了？ 

1 

1 

\ , , _ _ 

PCBJ , 

…,尸⑷ 

事件 A 发生了 

P ( S 丄 4)，…， 
F ( BJA ) 

此处的问题 

6 = ^ 

h ( d ) 

样本 A ，… ，又 

后验密度 (2.11) 


由这里我们就理 解到： 为什么一个看来不起眼的贝叶斯公式会有 
如此大的影响.这一点我们在第一章中已有所论述了. 

贝叶斯学派的下一个重要观点 是:在 得出后验分布 (2.11) 后， 
对参数0的任何统计推断，都只能基于这个后验分布.至于具体 
如何去使用它，可以结合某种准则一起去进行，统计学家也有一定 
的自由度.拿此处讨论的点估计问题来说 ，一 个常用的方法是:取 
后验分布 (2.11) 的均值作为0的估计. 


还有一点需要说明一 下：按 上文 ， A (0) 必须是一个密度函数， 
即必须满足 6(60>0， h(d)dd =1 这两个条件.但在有些情况 

下，力（0)>0,但 h(d)dd 不为1甚至为不过积分 (2.10) 仍有 

限，这时，由 （2.11) 定义的 /Z (釗 A ，…，作为0的函数，仍满足 
密度函数的条件•这就是说， B 卩使这样的 /j (0) 取为先验密度也无 

妨.当然，由于不为1，它已失去了密度函数的通常的概 

率意义•这样的&(幻通常称为“广义先验 密度' 

例 2.13 作 / z 次独立试验，每次观察某事件 A 是否发生 ， A 
在每次试验中发生的概率为/>，要依据试验结果去估计， 

这问题我们以往就“用频率估计概率”的方法去处理(这也是 
它的矩估计与极大似然估计）.这方法不用 p 的先验知识.现在我 
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们用贝叶斯统计的观点来处理这个问题. 

引进X,二1或0,视第；次试验时 A 发生与否而定，；二1，…， 

-因此 (& ，…，: *0 的概率函 

数为 p x ( i ~ pY ~ x , X 二 . 取 p 的先验密度 A ( P )， 则 P 的 

1 = 1 

后验密度为 

h ( p \ X l 9 - y X n ) 

= h ( p)pHi - p ) n ~ x j [ h ( p ) p -(\ - p ) n -" d />, o<^<i 

/」0 

此分布的均值为 

〜 P1 

〜 P = = ph ( P \ X ^- 9 X n )dp 

^ 0 

- \{ p ) p x+x {\ - p ) n ~ x dpj \\( p ) p x {\ - p) n ~ x dp 
^ 0 /Jo 

( 2 . 12 ) 

p 就是 P 在先验分布 /z ( f ) 之下的贝叶斯估计. 

如何选择 / l ( p )? 贝叶斯本人曾提出“同等无知”的原则，即 
事先认为 P 取[0，1]内一切值都有同等可能，就是说取[0，1]内均 
匀分布尺(0，1)作为夕的先验分布.这时 = 1 当0<户<1，而 
(2.12) 中的两个积分都可以用0函数表出（见第二章 (4.22) 式）. 
由此得 


P - /?(X + 2,n -X + 1)/J3(X + l,n - X+ 1) (2.13) 
根据夕函数与 r 函数的关系式 (4.25)， 以及当 6 为自然数时 
ru) 二 u — 1 ) !，由 （2.13) 不难得到 

P = (X + l)/(n +2) (2.14) 

这个估计与频率 X / n 有些差别，当 w 很大时不显著，而在//很小 
时颇为显著.从一个角度看，当《相当小时，用贝叶斯估计 (2.14) 
比用 X / n 更合理.因为当；7很小时，试验结果可能出现 X = 0 或 
X = n 的情况.这时，依 X / n 应把夕估计为0或1，这就太极端了 
(我们不能仅根据在少数几次试验中 A 会不出现或全出现，就判 
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定它为不可能或必然）.若按 （2.14)， 则在这两种情况下分别给出 
估计值 1/(72 +2) 和 U + l)/(n +2) .这就留有一定的余地. 

这个“同等无知”的原则，又称贝叶斯原则，被广泛用到一些其 
他的情况.不过随着所估计的参数的范围和性质的不同，该原则的 
具体表现形式也不同.例如，为估计正态分布中的"，同 
等无知原则给出一个广义先验密度 &(；«) 三1.若估计〃，则应取 

.若估计指数分布中的 A , 则取 ^( A ) = A m (A 
>0) .这些都是广义先验密度.其所以这样做的理由，不能在此处 
细谈了. ' 

这个原则也受到一些批评，其中最有力的批评是其不确定性. 
理由 是:拿 本例的/>来说，若对 > 同等无知，则对/> 2 (或 p 3 ， p 4 , … 
等)也应是同等无知，因而也可以把 〆 的密度函数取为 R (0 A ) 
的密度.这时不难算出 p 的密度将为 = 2 声（当0<户<1，其 
外为0)，与本例所给不一致•另外，不言而喻，同等无知的原则是 
一个在确实没有什么信息时，不得已而采用的办法.在实际问题 
中，有时是存在更确实的信息的，如本段开始讲到的那个估计废品 
率的情况.又如，估计一个基本上均勻的铜板在投掷时出现正面的 
概率我们有理由事先肯定/>离1/2不远.这时，可考虑取一个 
适当的数 e >0, 而把/>的先验分布取为[1/2- £ ，1/2 + £]内的均 

匀分布.这肯定比用同等无知的原则效果要好，尤其是在试验次数 
n 不大时. 

例 2.1 4 设& ，…，总 是自正态总体 iV (0， l ) 中抽出的样 
本.为估计0，给出0的先验分布为正态分布当然 
都已知）•求0的贝叶斯估计.在本例中有 

hie) 二 ~ 2 {0 - ^) 2 ' 


fU ， o)= (/TtcY 1 ^[~\(oc - e) 2 \ 

故按公式 (2.11) 知，0的后验密度为 


h ( e \ x lf -, x n ) - 



(2.15) 
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其中 J 是一个与 0 无关而只与，…，总有关的数.简单的 
代数计算表明 


一 pU — T|J ( n) 2 :-球 + 】 

(2.16) 

其中 

t ~ (w X + "/ a 2 )/(rz + l / cr 2 ) (2.17) 

rf - l/(n + 1/ a 2 ) (2.18) 

而 J 与沒无关.以 （2.16) 代入 (2.15) ，得 


h ( fflX lr t ^ r X „) = i^exp 


2 V 


2 


(6- t ) 2 


这里 Ifle 1 与 d 无失 I 不必直接算，因为，以0|&，…， X „) 作 


为0的函数是一个概率密度函数，它必须满足条件 

°° hXdlx^-.xjdd = 1 

J — oo 

这就决定了= (\/ 2丌”) \因此，纟的后验分布就是正态分布 
NU ， 〆 ）， 其均值 r 就是0的贝叶斯估计 I 



_ n 〒 1/ g 2 

n + 1/ a 2 n + l /< 7 2 ^ 


(2.19) 


把^写成 (2.19) 的形状很有意思.设想两个极端 情况: 一个是 
只有样本信息而毫无先验信息，这就是我们以前讨论的情况，这时 
用样本均值又去估计<9•另一个是只有先验信息 AT (户， a 2 ) 而没有 
样本.这时，我们只好用先验分布的均值 ju 作为 0 的估计.由 
(2.19) 式看 出：当 两种信息都存在时，<9的估计为二者的折衷.它 
是上述两个极端情况下的估计又和 p 的加权平均，权之比为 n ： l / 
^•这个比值很 合理： n 为样本数目， n 愈大，样本信息愈多， X 的 
权就该更大.对^而言，其重要性则要看 a 2 的大小 . a 2 愈大，表示 
先验信息愈不肯定 （0 在//周围的散布很大）.反之， a 2 很小时，仅 
根据先验信息，已有很大把握肯定0 在；/ 附近不远处.因此的 
权应与 a 2 成反比.公式 (2.19) 恰好体现了上述分析. 
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目前在国际统计界及应用统计工作者中，贝叶斯学派已有很 
大影响，其原因在于它确实有一些别的方法所不具备的优点.这些 
在今后我们还将看到.在我国，贝叶斯方法也开始受到重视并得到 
一些应用.对把数理统计学方法作为一种工具的应用工作者来说, 
对这个学派的方法有必要有一定的了解. 

4.3 点估计的优良性准则 

从前节的例子中我们累累 看到： 同一个参数往往有不止一种 
看来都合理的估计法.因此，自然会提出其优劣比较的问题. 

初一看觉得这个问题很容易回答：设&和^两个估计量都 
用于估计0，则看哪一^个的误差小，就哪一^个为优.但是，由于5本 
身未知，就不知道估计误差有多大，这还不是最主要的.主要问题 

在于 ： U 2 之值都与样本有关.一般情况是 ：对某 些样本，&的 

误差小于卩 2 的误差，而对另一些样本则反之.一个从整体上看不 
好的估计，在个别场合下可能表现很好.反之 ，一 个很不错的估计， 
由于抽到了不易出现的样本，其表现也可以很差.如例 1.2 估计学 
生学习成绩（以其考分衡量）的问题，大家都会 同意: 如抽出100个 
学生，以其平均成绩作为估计值，比以抽出的第一个学生的成绩作 
为估计值要好.但也可以发生这种情况 :所抽 第一个学生的成绩很 
接近于全校总平均，而100个学生的平均成绩反而与这个总平均 
有较大差距. 

由此可见，在考虑估计量的优劣时，必须从某种整体性能去衡 
量它，而不能看它在个别样本之下的表现如何.这里所谓“整体性 
能”，有两种意义 ：一是 指估计量的某种特性，具有这种特性就是好 
的，否则就是不好的.如下文要讲的“无偏性”，即属于此类 .二 是指 
某种具体的数量性指标.两个估计量，指标小者为优.如下文讲到 
的“均方误差”，即属于此类•应当注意的 是:这 种比较，归根到底， 
也还是相对性的•具有某种特性的估计是否一定就好？这在一定 
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程度上要看问题的具体情况，不是绝对的.下文在讲述无偏估计时 
还会涉及这一点，作为比较准则的数量性指标，也可以有很多种 • 

很有可 能：在 甲指标之下&优于& 2 ,而在乙指标下则反之. 

我们这样说，当然不是认为优良性准则和估计量的优劣比较 
毫无意义.相反，这些很有意义，且是参数估计这个分支学科研究 
的中心问题.我们是想提醒读者，不要把这些准则绝对化了，每种 
准则在某种情况下都有其局限性. 

4.3.1 估计置的无偏性 

设某统计总体的分布包含未知参数％，…，，…，是 
从该总体中抽出的样本，要估计 …， 8 k 、. g 为一已知函数. 

设左 （ A ，…，是一个估计量.如果对任何可能的 （化 ，…為）都 
有 

E e ^ A [g(X u -^X n )] - g(e '， …， d k ) ( 3 . 1 ) 
则称含是 dh ， …，的一个无偏估计量.记号，...』是指 :求期 

1 k 

望值时，是在各样本，… ，尤 的分布中的参数为化，…，^时去 
做的.比如，我说 Xj , X 2 是取自正态总体 N (0，1) 的样本，让计算 
和1 + X 2 的期望值.这要看参数值6等于多少1时，期望值 
为2; 0 = 2. 5时，期望值为5.标出£：&就明白显示是在哪个6/值 
之下去算期望值，也表示0值可以流动.这在定义 3.1 式中尤其有 
意义.因为在参数估计问题中，我们并不知参数的真值，它能在一 
定范围内流动.如废品率/>，可在[0，1]内流动.当比较两个估计量 
时，需要对种种可能的参数值去比较.故在均 ..1 这个记号中强 

调指出（化，…，久）以及其可以流动，是重要的.在不致引起混淆 
时，我们也可以简写为 £. 

估计量的无偏性有两个含义.第一个含义是没有系统性的偏 

差，不论你用什么样的估计量含去 估计^ •，总是时而（对某些样本) 
偏低，时而(对另一些样本）偏高.无偏性表示，把这些正负偏差在 
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概率上平均起来，其值为 0. 比如用一把秤去秤东西，误差来源有 
二:一 是秤本身结构制作上的问题，使它在秤东西时，倾向于给出 
偏高或偏低之值，这属于系统误差.另一种是操作上和其他随机性 
原因，使秤出的结果有误差，这属于随机误差，在此，无偏性的要求 
相应于秤没有系统误差，但随机误差总是存在.因此，无偏估计不 
等于在任何时候都给岀正确无误的估计. 

另一个含义是由定义 （3.1) 结合大数定理（见第三章定理 

4.1) 引伸出来的.设想每天把这个估计量含（ X :，…， X „) 用一次， 

第 f 天的样本记为彦 （ xp ， …，々^“。^，…，〜，….则按大数 

定理，当 N — ⑺时，各次估计值的平均， gp 免 

X ( w °)/ N , 依概率收敛到被估计的值，…，氏）.所以，若估计 
量有无偏性，则在大量次数使用取平均时，能以接近于100%的把 
握无限逼近被估计的量•如果没有无偏性，则无论使用多少次，其 
平均也会与真值保持一定距离——这距离就是系统误差. 

由此可见，估计量的无偏性是一种优良的性质.但是，在一个 
具体的问题中，无偏性的实际价值如何，还必须结合这问题的具体 
情况去考察.如在秤东西那个例中，若你经常去这家商店买东西而 
该店用的秤是无系统误差的.这等于说，店里在秤上显示的重量， 
是你所买的东西的真实重量的无偏估计，则尽管在具体某一次购 
买中店里可能少给或多给了你一些，从长期平均看，无偏性保证了 
双方都不吃亏.在此，无偏性有很现实的意义. 

现在设想另一种情况：工厂每周进原料一批,在投人使用前， 
由实验室对原料中某些成分含量的百分率 P 作一估计，根据估计 

值多采取相应的工艺调整措施. 无论} 比真正的户偏高或偏低，都 

会有损于产品质量.在此， gp 使多是 A 的无偏估计，在长期使用中， 

估计的正负偏差的效应并不能抵消.这样》的无偏性就不见得很 
有实用意义了. 

例 3.1 设；^，…，尤是从某总体中抽出的样本，则样本均 
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值 X 是总体分布均值 0 的无偏估计. 

这是因为，按定义，每个样本足的分布，与总体分布一样，因 
此其均值£(\)就是而 

n 

E(X) = J]E(Xi)/n - nd/n - 6 

i = 1 

据此可知 ：在正 态总体]\^(>，(7 2 )中用又估计/^，在指数分布总体中 
用X估计 1/A ，在二项分布总体中用 X/iV 估计/>，以及在波哇松分 
布总体中用X估计 A 等，都是无偏估计. 

例 3.2 由 （1.1) 式定义的样本方差 S 2 , 是总体分布方差 a 2 
的无偏估计. 

为证明这一点，以 a 记总体分布 均值： £(%)二 a . 也有 
( X ) = a ，把 X : - X 写 为 （Xi - a) -（X - a ) ，有 

iiX^X) 2 = ^[(X^ a) - (X - a)] 2 

i — 1 r — 1 

= 2 (Xi - a) 2 - 2(X — a (Xj - a) + n(X — a) 2 

，二 1 /= I 

注意到 2( X ,- - a ) = « (又 - a)， 有 

i — 1 

S — X) 2 = S d ~ a) 2 ~ n(X ~ a) 2 

f —l ; — 1 

因 aKX ^ EOO , 有 

E(Xi — a) 2 ~ Var(X t ) = <j 2 y i = 1 ，…， 打 

E(X ~ a) 2 — Var(X) — ^Var(X；)/?7 2 = na 2 /n 2 ~ a 1 /n 
于是得到 ，_1 

£( S 2) = 2(X,* - X) 2 ) - ~~~ Am 2 - n - ( p -/ n ) - a 1 

这就说明了 S 2 是 a 2 的无偏估计. 

这就解释了为什么要在样本二阶中心矩 (Xj — 
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X ) 2 / n 的基础上，把分母 n 修正为 n -1 以得到 S 2 . 这与以前讲 

过的一点也相合•.在第二章的附录 B 中我们曾讲到 E ( Xi - X ) 2 

的自由度为 72-1. 这正好是正确的除数，这件事不是一个巧合. 

在这里我们还可以对“自由度”这个概念赋予另一种解释：一 
共有 w 个样本，有„个自由度.用 S 2 估计方差 a 2 , 自由度本应为 
n. 但总体均值 a 也未知，用 X 去估计之，用掉了一个自由度，故只 
剩下_ 1个自由度. 


如果总体均值 a 已知，则不用 S 2 而用 2( X f - a ) 2 /n 去估 

i - 1 

计总体方差 a 2 (在 a 未知时不能用）.这是 a 2 的无偏估计，分母为 
n 不用改为 w -1. 因为此处 rz 个自由度全保留下了 U 已知，不用 
估计，没有用去自由度）. 

例 3.3 由上例易推 知:用 S 去估计总体分布的标准差方 
差^的正平方根），不是无偏估计.事实上，据第三章 (2.2) 式及上 
例的结果，有 

a 2 = E ( S 2 ) - Var ( S ) + (£ S ) 2 
由于方差总 非负： Var ( S )>0, 有 j >£：( S ). 因而 E ( S )< a . 即如 
用 S 去估计 a ， 总是系统地偏低.在一些情况下，可以通过简单的 
调整达到无偏估计.办法是把 S 乘上一个大于1的、与样本大小 
n 有关的因子适当选择。可以使 £( c „ S ) = c 忑 （ S ) = 
a . 对正态分布总体 N (/ z ， a 2 ) 而言，不难证明（习题 21) 



(3.2) 


由 E ( S )<： a 看出 ：在例 2.3 中给出的均匀分布尺（％，0 2 )中仏， 


02 的估计量 (2. 2)，即使把改成 S 2 , 也是有偏的（ I 偏高， 
偏低）.可以证明（习题22 ) :能找到常数，使 X - qS 和又+ r„S 
分别是的无偏估计，但的具体数值不易定出来. 

例 3.4 我们已经知 道:矩 估计不必是无偏的，极大似然估计 
也如此.事实上，在例 2.7 中，我们已求出 •.正 态总体的 
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方差 ^ 的极大似然估计，就是样本二阶中心矩，而我们已知后 
者不是无偏的.再看一个例 子:例 2.9 中我们找出均匀分布尺（0, 
0) 中0的极大似然估计是 r zrrnxUi ，…， X „). 不用计算即知 
f 偏低.因为，每个样本足都在（0,60内，故其最大值，即 f ，也 

在这个区间内.下面通过计算 ) 证明这一点，并找出调整因 
子 c „， 此例对下面还有用. 

先算6^的分布函数0(工，60.因为0<6^<0，有 
GU ，8) = 0,当 x <0; G ( x ，9) = 1，当 
若 O < x <0， 则为了事件发生，必须…， 

: d 这 n 个事件同时发生.由于各样本独立，且都有均匀分布尺（0, 
0)，有 HKx ) 二: r /0， 因而 

G(x ,6) — (x /6 ) n 

对 x 求导数，得到 V 的概率密度函数为 

g { x , d ) = W ，当0< X < 此外为0 (3.3) 

由此得到 

E e W ) 二 xg { x , d)dx - n x n dx /6 n - — ~rd (3.4) 

J 0 J o w 十 1 

看出以古计 0 系统偏低，且 2 为 d 的无偏估计. 

71 

4.3.2 最小方差无偏估计 

一个参数往往有不止一个无偏估计，从这些众多的无偏估计 
中，我们想挑出那个最优的.这牵涉到两个问 题:一 是为优良性制 
定一个准则，二是在已定的准则之下，如何去找到最优者.这涉及 
较深的理论问题，许多内容都超出本课程范围之外，这里我们只能 
作一个很初步的介绍. 

1. 均方误差，设 Xi ，…，尤是从某一带参数0的总体中抽出 

的样本，要估计 e .若我们采用估计量，…， x „)， 则其误 

差为 hXi ，…，尤）-0.这误差随样本 A ，… ，乂 的具体值而定， 
也是随机的，因而其本身无法取为优良性指标.我们把它平方以消 
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除符号，得(以 A ，…， x „)-60 2 , 然后取它的均值，即取 

Me ( d ) = E e [ d ( X^-M - 9)] 2 (3.5) 

作为彡的误差大小从整体角度的一个衡量.这个量愈小，就表示否 
的误差平均讲比较小，因而也就愈优 . M 纟 （60 就称为估计量0的 
“均方误差”(误差平方的平均）.不言而喻，均方误差小并不能保证 

為在每次使用时一定给出小的误差.它有时也可以有较大的误差， 
但这种情况出现的机会较少. 

用均方误差的观点就容易回答前面提到过的一个问 题：用 
100个学生的平均成绩作为全校学生平均成绩的估计，比用抽出 
的第一个学生的成绩去估计好.事实上，这两个估计分别是 X 二 
(Xi + 〜 + X 10() )/100 和 Xi 总体分布为正态 N (//， a 2 ). 叉和：^ 
的均方误差分别为 

E(X - ^) 2 — a 2 /100 9 E(Xx — fx) 2 — a 1 
故&的均方误差是又的100倍. 

均方误差并不是唯一可供选择的准则.例如，平均绝对误差 

E e \ e { x x r -, x n )- d \ ,以及其他许多别的准则，看来都很合理且 

在某些场合下还确有其优点，但是，由于平方这个函数在数学上最 
易处理，使这个准则成为一切准则中应用和研究得最多的. 

按第三章 (2.2) 式，有 

脚 （ d ) = Var 6 ( d ) + [ E e (6) ~ df (3.6) 

% 

即均方误差由两部分构成：一部分是 Var ^(0) ，即&的方差，表示沒 
自身变异的程度，另一部分中，均（否）表示歹这个估计量的系 
统偏差，如果卩为0的无偏估计，则第二项为0,而这时有 


{8) = Vwr e ( d ) (3.7) 

2. 最小方差无偏估计•从前面的讨论看 到:若 局限于无偏估 

计的范围，且采用均方误差的准则，则两个无偏估计&和&的比 
较，归结为其方差的比 较:方 差小者为优. 
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例 3.5 设是从均匀分布 总体只 （0 J ) 中抽出的 
样本.在例 3.4 中已指出过0的两个无偏估计 ：&二 2 X ， g 2 = 

n + ^ max(Xi ，… ， X „) .有（参看第三章，例 2.5) 

11 

Var〆 心） 二 4 Var ^( X ) = "^ Var / Xi ) 二 | 

为计算的方差，仍以 『记 maxd ， …，; O .按^的密度函数 
(3.3)，得 

E e {en - —^d ， E 0 (d* 2 ) = n \ 6 x^ l dx/d n = -^e 2 

w 十丄 J 0 n -h 2 

因此 

Var,(r) = E e id ， - [£ 6 (6^] 2 = ( ‘二 + ，、 g 2 

(77+1)(77+2) 

而 

V ar 冰卜 (2 L ^ i ) 2 Var w ) = nin \ 2 ) 9 2 

当 n >1 时，总有 n(n + 2)>3 n . 故除非 n~\,Q 2 的方差总比 ㊁ i 
的方差为小，且这一点不论未知参数 <? 取什么值都对.因此，在 

“方差小者为优”这个准则下，^2优于^1，当 n ~\ 时，^与重 
合. 

如果&是0的一个无偏估计，且它的方差对0的任何可能取 
的值，都比任何其他的无偏估计的方差为小，或至多等于它，则在 

“方差愈小愈好”这个准则下，卩就是最好的，它称为0的“最小方 
差无偏估计”，简记为 MVU 估计' 

定义 3.1 设彳为之无偏估计.若对的任何一个无 
偏估计&都有 

Var^(0) < Var〆 心） 

* MVXJ 是 “ 最小方差无偏 ” 的英语 Minimum Variance Unbiased 的缩写 . 
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对 <9 的任何可能取的值都成立，则称9为的一个最小方差无 
偏估计 ( MVU 估计). 

从例 3.5 知& 2 的方差小于&的方差.但我们并不能由此就肯 


定％ 就是 0 的 MVU 估计，因为也可能还存在其他的无偏估计， 

其方差比&的更小.那么，怎样去寻找 MVU 估计呢？在数理统 
计学中给出了一些方法，我们只能简略地介绍其中的一个.这个方 
法的思想如下 ：先研 究一下，在幻的一切无偏估计中，方差最小 
能达到多少呢？如果我们求出了这样一个方差的下界，则如某个 

估计&的方差达到这个下界，那它必定就是 MVU 估计. 

3. 求 MVU 估计的一种 方法: 克拉美-劳不等式， 

我们只考虑单参数的情况.设总体的概率密度函数或概率函 
数 /( x ，0) 只包含一个参数，& ，…，总 为从该总体中抽出的样 
本，要估计 g (0). 记 

1(d) = f I fix ,6)]dx (3.8) 

这里积分的范围为: r 可取的范围.例如，对指数分布总体 ,0< x < 
㈤ ，对正态总体则 - oo < x < cx > .如果总体分布是离散的，则（ 3 . 8 ) 
改为 

i( 9 )=^[ d f^) 2 l f(at ,e) (3.9) 

这里求和 H 遍及总体的全部可能值 

a l ， a 2 ，…_ 为确定计,我们下 

I 

面就连续型的情况去讨论•对离散型的情况，只须作相应的修改， 
有如把 (3.8) 修改为 (3.9). 

克拉美-劳不等 式:在 一定的条件下，对 g (0) 的任一无偏估计 
蒼二套 ( A ，… ，总） ，有 

Var^(^) > (g / (d)) 2 /(nl(d)) (3.10) 

n 是样本大小. 

这个不等式给出了的无偏估计的方差的一个下界，即 
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(3.10) 式右边.如果的某个无偏估计其方差正好达到了 

(3.10) 右端，则它就是 g (0) 的 MVU 估计，这不等式的成立有一 
定的条件.实际上，在其表述中，就包含了要求 a /( x ，0)/ a 6 /和 

存在的条件，其他的条件将在下文推导中看出. 

记 


n 


s : SUi ，… ，尤 ， 60 = 2 > log / (足， 0 )/即 


n 3f(x“d) 




36 


f(X i9 d) 


r* 


因为 /( x ，0〉 为密度，有 j /( x ，0 )dr = 1 .两边对 0 求导，并假定 
(这就是条件之一）左边求导可搬到积分号内，有 

d fix ,d) 


dd 


do ： 二 0 


因此 


Ee 


dd 


f(X i9 d) 




dd 

于是，由的独立性，有 


ifix ,d)\f{a ： ,d)dx 




i ， 6) 


dx = 0 


Var,(S)- Jva^(^|^//(U) 


Y ^ Et {df(Xi9d) 


dd 


f(X l9 $) 


(3.11) 


= ，<?) f(xyd)Ax = nl(6) 
按第三章定理 3.1 的2°，有 

[Cov^(g,S)] 2 < Var^(g-)Var 0 (S) = nI(d)V^r & (g) 


(3.12) 
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由 (3.11) 有 坞 （ S ) = 0 .按第三章 (3.2) 式，有 
Cov ^( g , S )= E d ( gS ) 

=:••如 U ，.[^%^// U .，< 

n 

-■ I 

* 11 /(^, 0 ) * dxi'-dx n 

由乘积的导数公式可知 

自 p %^// u ， 叫 n / u 』） 

— d f { x \,8)-' f { x n yd ) 

= 3d 

以此代人上式，并假定对0求偏导数可移至积分号外面（这又是 
一个条件!），则得 

Cov^(t ， S) = g(x 1 ,-*sj ： „)/(x 1 »0)*'*/(x„,0)cb ： r**dr„ 

但上式右边的积分就是会），因蒼为 g (0) 的无偏估计，这积分就 

是 g (0) .故上式右边为 g 0)，因而得到 Cov 0 ( 舍， S ) 二 〆 （60,以 
此代入 (3. 12)，即得 (3.10). 

不等式 (3.10) 是瑞典统计学家 H . 克拉美和印度统计学家 C . 
R . 劳在 1945—1946 年各自独立得出的，故文献中一般称为克拉 
美一劳不等式 .这 个不等式在数理统计学中有多方面的应用，此处 
求 MVU 估计是其中之一. 

顺便提一下：（3.10)中 J (0) 这个量的表达式 (3. 8)，最初是英 
国统计学家 R . A . 费歇尔在20年代提出的，后人称之为“费歇尔 
信息量”.此量出现在 (3.10) 中，并非偶然的巧合.从 (3.10) 我们可 
以对为什么把 K 0) 称为“信息量”获得一点直观的 理解： 7(0) 愈 
大， (3.10) 式中的下界愈低，表示 g (0) 的无偏估计更有可能达到 
较小的方差——即更有可能被估计得更准确一些是通过样 
本去估计的， gM ) 能估得更准，表示样本所含的信息量愈大.一共 
有 n 个样本，如把总信息量说成是 (3.10) 右边的分母 d (0)， 则 
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个 样本正好占有信息量 1( d ) ， J (60 这个量在数理统计学中很重 
要，有多方面的应用，但大多超出本课程的范围. 

不等式 (3.10) 并不直接给出找 MVU 估计的方法.它的使用 
方式 是：先 要由直观或其他途径找出一个可能是最好的无偏估计， 
然后计算其方差，看是否达到了 （3.10) 式右端的界限，若达到了， 
就是 MVU 估计.同时，还得仔细验证不等式推导过程中所有的条 
件是否全满足，这有时是不大容易的，在以下诸例中，我们都略去 
了这步验证. 

例 3.6 为抽自正态总体 N (0，^ r 2 ) 的样本， tr 2 

已知（因而只有一个参数 0) ，要估计心本例 

fix,6) = (^ r 27 t(j)~ l exp - - d) 2 

因而 

1(d) = (v^rcr)" 1 \(x - d) 2 exp - - d) dx 

J -oo (j L LG . 


故按不等式 (3.10),0 的无偏估计的方差，不能小于 a 2 / n . 而 X 是 
6 的一个无偏估计，方差正好是(7 2 /：^，故又就是0的 MVU 估计. 

虽然我们是在 tx 2 已知的条件下证得 X 为0的 MVU 估计，但 
不难推知，这个结论当 a 2 未知时也对.证明留给读者(习题 23). 

例 3.7 指数分布的费歇尔信息量 /( A ) 为 

/( A ) = :( 士 _ _r) 2 Ae _/U <ir = A - 2 

故若要由大小为 n 的样本去估计总体均值 g ( A ) = 1/ A ，则按 
(3.10),1/ A 的无偏估计的方差不能小于 

[ g -'( A ) ] 2 /( w /( A )) = 1/( nX 2 ) 

而样本均值 X 是 1/ A 的一无偏估计，方差正好为 1/(« A 2 ). 故 X 是 
1/ A 的 MVU 估计. 

例 3.8 回到例 3. 6.若均值0已知而要估计方差，则不难证 
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明： 60 2 Az 是 a 2 的 MVU 估计，计算留给读者(在计算费 

歇尔信息量时，注意要把 . a 2 作为一个整体看.可以引进新参数 
A = a 2 再计算）. 

如果 6. a 2 都未知而要估计 a 2 , 则可以证 明：样 本方差 S 2 为 
a 1 的 MVU 估计，但这个证明已超出本方法的范围之外. 

例 3.9 为估计均勻分布 i ?(0,60 中的参数(9,在例 3.5 中引 


进过两个无偏估计心二2 X 和&二 2 L ^ mMX l ，…，:\：„)，并证明 

Th 优于& •事实上可以证 明：》 2 就是0的 MVU . 但这个结论不 
能利用不等式 (3.10) 去证明.这是因为总体的密度函数并非0的 
连续函数.它有一个间断点： (9 二 x ( 注意 ：是把 /( x ，0) 中的 x 固 
定，作为 <9的函数时的间断点），故导数 a /( x ，0)/ a 6 非处处存在. 


证 明&为 0的 MVU 估计要用另外的方法，此处不能讲了. 
下面举一个离散型总体的例子. 

例 3.10 总体分布为二项分布 B (/ V ， 声），概率函数为 


f (工， P ) 


N 


X 


pHi - p) n 'x 二 o ， i，".，iv 


由此算出费歇尔信息量(按 (3.9) 式) 


I ( p ) 


N 


N 


p 2 ( i - p ) 2 


2(:- Np ) 2 [ ip^n - p ) 


N 


x 


x 


0 


X 


右边这个和不是别的，正是总体方差，故这个和等于 Np ( l ~ p ) 
(第三章例 2.2) .因此 

Kp ) ^ Np - Hi - pY l 

按(3_10)，> 的无偏估计（基于大小为 n 的样本）的方差，不能小 
于 p ^ l - p )/( nN ) MH/N 为 p 之一无偏估计,其方差为 
(X 的方差） / N 2 = 总体方差 /( nN 2 ) = Np(l - p )/( nN ) 2 

= p(l - p )/( nN ) 

因此， X / iV 就是的 MVU 估计. 

特别当 iV 二1时，得出：“用频率估计概率”，是 MVU 估计.在 
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例 2.13 中，我们曾求出户的贝叶斯估计 (2. 14)，并指出过它与频 
率这个估计比，可能有某些优点.这就看 出：“ 最小方差无偏”这个 
准则也不是绝对的. 

例 3.11 仿例 3. 10可以 证明： 在波哇松分布 P(A ) 的总体中 
估计 A ， X 是 MVU 估计.证明留给读者. 

4.3.3 估 计量的 相合性与渐近正态性 

1. 相合性.在第三章中我们曾证明大数定理.这个定理 说:若 
A 、， X 2 , …，，…独立同分布，其公共均值为 （9 .记二 

n 

S X r - /72，则对任给 e >0, 有 

卜1 

HmP ( (3.13) 

n ^°° 

(在证明这个定理时假定了足的方差存在有限.但我们曾 指出： 
方差存在的条件并非必要）. 

现在我们可以从估计的观点对 （3.13) 作一个解释.我们把 
Xi ， X 2 , …， x n 看作是从某一总体中抽出的样本.抽样的目的是估 
计该总体的均值&概率 P (| 兄 是：“ 当样本大小为” 
时，样本均值瓦这个估计与真值0的偏离达到 e 这么大或更大” 
的可能性 .（3.13) 表明 ：随着 n 的增加，这种可能性愈来愈小以至 
趋于0.这就是说，只要样本大小 w 足够大，用样本均值去估计总 
体均值，其误差可以任意小.在数理统计学上，就把称为是0的 
“相合估计”.字面的意思 是：随 着样本大小的增加,被估计的量与 
估计量逐渐“合”在一起了. 

相合性的一般定义就是这个例子的 引伸： 

定义 3.2 设总体分布依赖于参数力，…，九，&(%，…，馬）是 
di ， …， e k 之一给定函数.设 X 1 , X 2 ,-, X „ 为自该总体中抽出的 

样本，了(义，…， X „) 是 ^(^1 ，…，乂）的一个估计量.如果对任给 
£>0有 

limP^ ^ ( | T(Xi ， --,X n ) - ， … 為 ）I > e ) = 0 

^-►oo 1 k f 

(3.14) 
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而且这对 (仏， …，心）一切可能取的值都成立，则称 

是 g ( A ，…，氏）的一个相合估计. 

记号4的意义，表示概率是在参数值为01， … ，馬）时去 

计算的（参看前面关于记号均，…』的说明）.在讲述大数定理时 

1 7 k 

我们曾引进过“依概率收敛”的术语•使用这个术语，相合性可简单 
地描 述为: 如果当样本大小无限增加时，估计量依概率收敛于被估 
计的值，则称该估计量是相合估计. 

相合性是对一个估计量的最基本的要求.如果一个估计量没 
有相合性，那么，无论样本大小多大，我们也不可能把未知参数估 
计到任意预定的精度.这种估计量显然是不可取的. 

如同样本均值的相合性那样，常见的矩估计量的相合性，都可 
以基于大数定理得到证明.我们再以用二阶中心矩 m 2 ( n ) 

二 ~ X n ) 2 / n 为例.以 a 和 a 2 分别记总体的均值和方差. 

i = 1 

注意到 


S ( X , - a ) 2 = ' Z [( X i - X n ) + ( X n ~ a ) 

i - 1 z 二 1 


知 


2(^-Xj 2 +^U„-a) 2 

i = 1 


n 


nil 


( n ) 


n 


2( X , - a ) 2 - ( X , - a ) 


2 


依大数定理， 2 ( X z . - a ) 2 / n 依概率收敛于 £(% - a ) 2 = C7 2 , 而 

i - 1 

又„- a 依概率收敛于 0 .故 m 2 ( n ) 依概率收敛于 a 2 , 即它是总体 

方差 a 2 的相合估计.因为样本方差与样本二阶中心矩只相差一个 
因子 《/(« - 1)，而当77—⑺时这个因子趋于1，知样本方差也是 
总体方差的相合估计.这样可以 证明： 前面例子中的许多估计都有 
相合性. 

极大似然估计在很一般的条件下也有相合性.其证明比较复 
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杂，不能在此讨论了. 

2. 渐近正态性.估计量是样本&，…，尤的函数，其确切分 
布要用第二章 2.4 节的方法去求.除了若干简单的情况以外，这常 
是难于实现的.例如，样本均值可算是最简单的统计量，它的分布 
也不易求得. 

可是，正如在中心极限定理中所显示的，当 n 很大时，和的分 
布渐近于正态分布.理论上可以证明，这不只是和所独有的，许多 
形状复杂的统计量，当样本大小 72 — OO 时，其分布都渐近于正态分 
布.这称为统计量的“渐近正态性”.至于哪些统计量具有渐近正态 
性，其确切形式如何，这都是很深的理论问题，在我们这个课程的 
范围内无法细加介绍了. 

估计量的相合性和渐近正态性称为估计量的大样本性质.指 
的是 :这种 性质都是对样本大小 n — oo 来谈的.对一个固定的 
相合性和渐近正态性都无意义.与此相对，估计量的无偏性概念是 
对固定的样本大小来谈的，不需要样本大小趋于无穷.这种性质称 
为“小样本性质”.因此，大小样本性质之分不在于样本的具体大小 
如何，而在于样本大小趋于无穷与否. 

4.4 区间估计 


4.4.1 基本概念 

如前所述，点估计是用一个点（即一个数)去估计未知参数.顾 
名思义，区间估计就是用一个区间去估计未知参数，即把未知参数 
值估计在某两界限之间.例如，估计一个人的年龄在30到35岁之 
间;估计所需费用在1000—1200元之间等等.区间估计是一种很 
常用的估计形式，其好处是把可能的误差用醒目的形式标出来了. 
你估计费用需1000元，我相信多少会有误差.误差多少？单从你 
提出的1000这个数字还给 不出什 么信息，你若估计费用在800〜 
1200元之间，则人们会相信你在作出这估计时，已把可能出现的 
误差考虑到了，多少给人们以更大的信任感. 
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现今最流行的一种区间估计理论是原籍波兰的美国统计学家 
J . 奈曼在本世纪30年代建立起来的.他的理论的基本概念很简 
单.为书写简单计，我们暂设总体分布只包含一个未知参数心且 
要估计的就是6本身.如果总体分布包含若干个未知参数^，…， 
而要估计的是…，久），基本概念并无不同.这将在后面 

的例子中看到. 

设&，… ，尤 是从该总体中抽出的样本.所谓0的区间估计， 
就是满足条件 AUi ，…，，…， xj 的两个统计量&， 
A 为端点的区间[&，》 2 ].—旦有了样本 Xi ，…，，就把 6 M 古计 

在区间 [& U ! ，…， 兄）， 3 2 (&，…，； u ] 之内，不难理解，这里有 
两个 要求： 


1. 0要以很大的可能性落在区间[&，&]内，也就是说，概率 

巧 (心 ( Xi ，…， XJ < …， XJ ) (4.1) 

要尽可能大. 

2. 估计的精密度要尽可能高.比方说，要求区间的长度 &- 

6, 尽可能小，或某种能体现这个要求的其他准则. 

例如，估一个人的年龄在某一区间内，例如[30,35]内.我们要 
求这估计尽量可靠，即该人的年龄有很大把握确在这区间内，同 
时，也要求区间不能太长 ：比如 ，估计一人的年龄在 10—90 岁之 
间，当然可靠了，但精度太差，用处不大. 

但这两个要求是相互矛盾的.区间估计理论和方法的基本问 
题，莫不在于在已有的样本资源的限制下，怎样找出更好的估计方 
法，以尽量提高此二者——可靠性和精度，但终归有一定的限度. 
奈曼所提出并为现今所广泛接受的原则 是:先 保证可靠度,在这个 
前提下尽量使精度提高.为此他引进了如下的定义. 

定义 4.1 给定一个很小的数《>0.如果对参数6?的任何 

值，概率 (4.1) 都等于 l - a ， 则称区间估计 [^， g 2 ] 的置信系数为 
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区间估计也常你为“置信区间”.字面上的意思是 :对该 区间能 
包含未知参数0可置信到何种程度. 

有时，我们无法证明概率 (4.1) 对一切 6 /都恰好等于 1- 〃，但 

知道它不会小于1-、则我们称 1- a 是 [^，》 2 ] 的“置信水平”. 
按此，置信水平不是一个唯一的数.因为，若概率 （4.1) 总不小于 
0.8,那它也总不小于 0.7,0. 6,…等. 就是说，若/3 为置信水平，贝!1 
小于的数也是置信水平，置信系数是置信水平中的最大者.在 
实用上，人们并不总是把这两个术语严加区别，这要看各人的习 
惯. 


定义4.〗中的《，一般以取为 0.05 的最多，还有0.01,0.10, 
以至 0.001 等，也视情况需要而使用.这几个数字本身并无特殊意 
义，主要是这样标准化了以后对造表方便. 

区间估计理论的主要问题，按奈曼的上述原则，就是在保证给 
定的置信系数之下，去寻找有优良精度的区间估计.而这个“优 
良”，也可以有种种准则.这方面现已有了一些结果，但在本课程范 
围之内，我们无法去涉及这些较深的理论问题，我们所能做的，就 
是从直观出发如何去构造看来是合理的区间估计.这就是下面两 
段要讨论的问题. 

4.4.2 枢轴变置法 

从一个简单例子入手.设 Xj ，…， X „ 为抽自正态总体 
的样本， rr 2 已知，要求"的区间估计 • 

先找一个//的良好的点估计.在此可选择样本均值 X . 由总 
体为正态易知 


/ Vi ( X - ju)/a - N (0,1) (4.2) 

以少记 A /(0,1) 的分布函数.对0<0<1(—般是很小），用方程 

少 （，）=1 —戸 (4.3) 

定义记号％•^称为分布 N (0，1) 的“上#分位点”.其意 义是： 
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N (0，1) 分布中 大于％ 的那部分的概率，就是 /?. 图 4.2 中画出的 

是 mo ， i ) 的密度函数的图形，涂黑部分 
标出的面积为 /?. 

上#分位点的概念可推广到任 

k < p ( x ) 

何分布 F : 满足条件 F ( 二1 - P 的 

/^ 点％，就是分布函数 F 的上戶 分位 

点.在数理统计学的应用中，除正态 

- \o ^ 分布外，“统计三大分布”的上分位点 

很常用.以后，我们分别用 X 2 n ( p ), t n 
图(卢）和^，,„(/?)记自由度；7的卡方 

分布，自由度〃的 r 分布，以及自由 
度为 （ W ，7?2)的 F 分布的上戸分位点，这些都有表可查. 

另外，读者还须 注意： 在有的著作中使用“下分位点”，分布函 
数 F 的下分位点是指满足条件 = p 的点 $3. 上、下分位 
点之间的换算不难 ：分布 F 的戸下分位点，就是其1 - 卢上分位 
点.当分布 F 的密度函数/关于原点对称（即 f (- x )= /( X ))时， 
F 的上 、下# 分位点只相差一个符号，本书以后只使用上分位点. 

现在回到"的区间估计问题，由 （4.2) 及作的定义，并注意 

到少 （- f ) = 1 -少（0,有 

u aa - fx) /a u a/2 ) = u a/2 ) - <P(~ u a/2 ) 

— (1 — a/2) — a/2 — 1 ~ a 

此式可改写为 

P (X — (TU a /i/ ^Tn ^ ^ X + au a n^ ) ~ 1 — a 

此式指出 

[ 沒 1 ， ㊂ 2] 二 -X — au a / 2 /\l~n , X + ou a /:/\Hn — (4.4) 

可作为"的区间估计，置信系数为 l - a . 

由这个例子悟岀一种找区间估计的一般方法，可总结为以下 

几条 

1°找一个与要估计的 参数 〆 (9) 有关的统计量7\—般是其 
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-良好的点估计(此例 T 为 X ); 

2°设法找出： T 和# (0) 的某一函数 Srr ， g (60)， 其分布 F 
要与沒无关（在此例中， s (: r ， g (0)) 为 A(x - / OAr ， 分布 F 就 
是①） . S 称为“枢轴变 量”； 

3。对任何常数 a<6, 不等式 a < S ( T ， g ( d )、< b 要能改写 
为等价的形式 A<g(60<B，A，i 3 只与: T，a，6 有关而与9 无关; 

4°取分布 F 的上 a /2 分位点 tc V 2 和上 （1 - a /2) 分位点 
以 ，1 - «/2 .有 F(ZV a/2 ) - PXtt] — a/2 ) = 1 - a . 因此 

p ( 加 h/2<S(7\g ⑻） <U V2 )= 1 - a 

根据第 3 条，不等式々可改写为 A< 
g (0 XB 的形式， A，S 与了有 关因而与样本有关. [A，B] 就是 g 
(夕）的一个置信系数 1-a 的区间估计. 

现在举一些例子来说明这个方法，这些例子包含了许多常用 
的重要区间估计. 

例 4.1 从正态总体 iV ("，<7 2 ) 中抽样本&，…，和^ 2 
都未知 ，求" 的区间估计. 

^的点估计仍取为样本均值又.作为枢轴变量，再取 V^(X- 
")4r 已不行.因为虽然这变量的分布 iV(0，l) 与参数无关，但因 a 
未知，条件3°已不满足•现把 a 改为样本标准差 S， 则枢轴变量一 
切条件都满足了，因为（见第二章 （4.34)) 变量 A (又- ")/ S 服 
从自由度为 "-1 的^分布，与参数无关.由此出发用4。，并注意^ 
分布密度关于0对称因而 t n - x ( \ - a /2) - — —i(a/2)， 得 "的 

区间估计 

[X - St n - X {a/2)/\fn ,X + St n - X {a/2) / ^fn ] (4.5) 

置信系数为1 _ Of . 它称为“一样本^区间估计”. 

例如，为估计一物件的重量把它在天平上重复秤了 5次， 
得结果为(单位为克） 

5.52,5.48,5.64,5.51,5.43 

假定此天平无系统误差且随机误差服从正态分布，则总体分布为 
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N ( fi ， a 2 ) ， p 即未知的重量，方差 a 2 也未知.算出 
X= (5.52 4- -5.43)/5 = 5.516 


S 二 


V5^L [(5 - 52 


-5.516) 2 + …+ (5.43 -5.516) 2 ] 


- j 70.02412 = 0.078 

查表，知 / 4 (0. 025)-2.776. 以这些数值代入 (4.5) ， 得//的置信 
系数 0.95 的区间估计为 [5.419,5.613]. 

[5.419,5.613] 是一个具体的区间是一个虽然未知，但其 
值确定的数. [5.419,5.613] 这区间或者包含 "， 或者不包含，二者 
只居其一.说这区间的置信系数为 0.95, 其确切意义应当是 ：它是 
根据所有的数据，用一个其置信系数为 0.95 的方法作出的.可见 
置信系数一词是针对方法 :用这 方法作出的区间估计，平均100次 
中 95 次确包含所要估计的值 .一旦 算出具体区间，就不能再说它 
有 95% 的机会包含要估计的值了.这一点意义上的理解必须分 
清，正如说一个人长于挑西 瓜:他 挑的瓜，平均 100 个中有 95 个好 
的.某天他给你挑一个，结果或好或坏，必居其一，不是 95% 的好. 
但是，考虑到他挑瓜的技术，我对他挑的比较放心，这就是置信系 
数. 

区间估计 (4.5) 叫做一样本 z 区间估计.“一样本”是指这里只 
有一个总体，因而只有一组样本，以別于下例. 

例 4.2 设有两个正态总体，其分布分别为和 
A /(" 2 ，( T 2 ). 注意方差相同.设都未知.现从这两个总体 
分别抽出样本&，… ，&和 L ，…，要求 ^-/ u 2 的区间估 
计. 

记 x 和 y 分别为 x t •和 Y , 的样本均值，而 

S 二 ■ |](X, - X) 2 + S ( y, -Y) 2 ] l/Z /Vn + m - 2 
据第二章 (4.36) 式，知 

了 n^+ n . ((X _ ” _ ("i - " 2 ))/S ~ t n + m — 2 
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的分布不依赖于参数//1，^2^ 2 -它适合于作为枢轴变量的条件， 

按4°，定出的区间估计为 

• , 

U ~ Y ) - 

， T i IffL 

■ _ m 

( X - Y )^ St n + m ^( a /2)^^\ (4.6) 

置信系数为 1_«. 这个区间称为“两样本 t 区间估计”，是应用上 
常用的区间估计之一. 

如考虑上例，设有另一物件，其重量~也未知.在这同一架 
天平上秤4次，得结果为 

5.45,5.40,5.34,5.51 

把上 例中的记为内 .因是同一架天平，方差不变.要对两物件重 
量之差 作区间估计.可用 (4.6) .算出 

Y - (5.45 + …+ 5.51)/4 - 5.425 

n 

-〒) 2 = (5.45 - 5.425) 2 + …+ (5.51 - 5.425) 2 

j 二' 

= 0.01570 
结合前例数据，算出 

X - Y 二 -0.091 ，S 二 /0. 02412 + 0.01570/75 + 4-2 
二 0.075 

又\/ ( ?? + m)/nm = V 9/20 = 0.671 .取 a = 0.05,查 i 分布表得 
以0.025)二2.365,把这些都代人(4.6)，算出 ^- ju 2 的区间估计 
为[―0.210,0.028]，置信系数 0.95. 

在实际问题中，两总体方差相等的假定往往只是近似成立.当 
方差之比接近1时，用 （4.6) 产生的误差不大（这里的“误差”一词 
是指实际的置信系数与名义的置信系数1 - a 有出入〉.如果差别 
较大,则必须假定两正态总体分别有方差4和和4都未 
知.在这样的假定下求内的区间估计问题 ，羞 数理统计学上 
一 个著名的问题，叫贝伦斯-费歇尔问题.因为这两位学者分别在 
1929和1930年研究过这个问题，他们以及后来的研究者提岀过 
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-些解法，但还没有一个被公认为是最满意的. 

例 4.3 再考虑例4.1，但现在要求作 a 2 的区间估计. 

据第二章(4.33)，有 U -l)S 2 /a 2 〜； ^-1 .于是 U — l)S 2 /a 2 
适合枢轴变量的条件.按4°，得 W 的区间估计为 

[(?1 - l)S 2 /xl-i(a/2),(n - l)S 2 /X 2 n~i(l - a/2)](4.7) 
置信系数为 l-«. 类似地，若另有一正态总体 a〗） 及从中抽 
出的样本 Y x Y m ，要作方差比 a\/a\ 的区间估计.记 S? 和 S 奎 
分别为&，…，和6，…，的样本方差，按第二章 (4. 35)，有 

(Sl/al)/(S\/a\) - F m ^ Un ^ 

即义义纟“丨〜匕^^卜其中入二^/土于是得到枢轴变量-按 
4°，得出比值 A 的置信系数1 - a 的区间估计为 

[{S\/Sl)F m , Un . x (\ - a/2)AS\/S\)F m ^ Un . x {a/2)] 

(4.8) 

例 4.4 设 X x ,-', X n 为抽自指数分布总体的样本，要求其 
参数 A 的区间估计. 


在第二章 2.4.3 小节中曾证明 2nAX 故 2W X 可作为 
枢轴变量.由 4 °， 得 A 的区间估计为 

[X 2 n(l - a/2)/(2nX) f xL(a/2)/(2nX)] (4.9) 

置信系数为1 - a . 若要求总体均值 1/ A 的区间估计，则为 

[2? iX / X 2 n ( a /2) 9 2 nX / X 2 n(l - a /2)] (4.10) 

从这些例子可以看出“枢轴变量法”这名称的由来.拿本例来 
说，变量 2 nA X 起了一个“轴心”的作用，把一个变量（即 2〃 AX ) 介 
于某两个界限之间的不等式轻轻一转，就成为未知参数 A 介于某 
两个界限之间的不等式. 

对离散型变量来说，枢轴变量法不易使用.不仅由于满足条件 
1° 一 4° 的枢轴变量 S ( T ， g (£0) 大多不存在，即使存在了，由于其 
分布 F 为离散，对指定的#，一般也不一定存在确切的上^分位 
点•对离散型总体的参数去找具有所指定的置信系数的区间估计 
方法，超出本书范围之外.在下一段中，对二项和波哇松分布参数 
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这两个重要情况，将给出一种基于极限分布的方法. 

在实用中，除了指定的置信系数外，往往还对于区间估计的长 
度，或其他某种反映其精度的量，有一定的要求.在有些情况下这 
个问题比较好处理.例如， iVQ ， 〆 ） 当 a 2 已知时的区间估计 
(4.4) 的长为 - 为要使这个长度不超过指定的 L >0,只 
须取 w 为不小于 (2^ w a /2 / L ) 2 的最小整数即可. 

对例 4.3 正态分布方差或方差比的估计，由于方差本身的意 
义，在实际问题中，考虑估计值与它相差多少倍，往往比考虑估计 
值与其差的绝对值更好.这就要求，例如，区间 ( fL 7) 的右端不超过 
左端的 L 倍 （ L 〉1 )，BP 

xl - i ( a / 2 )/ xl - i(l - a /2) < L 

在给定了 L 之后，可以查 Z 2 分布表，找一个最小的 n 使上式成立 
即可，对方差比的情况，以及指数分布参数 A (或 1/ A ) 的情况，也 
完全类似地处理. 

对 r 区间估计，则情况不同.拿一样本 r 区间估计 (4.5) 来说， 
其长 2 S & dU /2)/^ 与 S 有关，而 S 与样本有关，故无法决定这 


样一个 L 它能保证在任何情况下都有 2 St n x { a /2)//^ i < L . 
1945年，美国统计学家斯泰因提出了一个“两阶段抽样”的方法来 
解决这个问题 :先抽 出样本&，… ，总 ，算出样本标准差 S 如前. 
根据 S 的大小决定追加抽样的数目 ： s 愈大，追加抽样次数愈多. 
具体公式如下 ：先引 进记号 U ] =不超过 a 的最大整数，例如 
[3.12] = 3，[2] 二 2等，追加抽样次数 m 的公式为 

}0，若 n > [4 t 2 n ^( a /2) S 2 / L 2 ]+ 1 

m — ^ ^ 

U - 1 - 其他情况 

记原有样本和追加样本全体的样本均值为 $， 则可以证明，长为 l 
的区间估计[$-1/2，$ +乙/2]有置信系数1-«, 

4.4.3 大样本法 


大样本法就是利用极限分布，主要是中心极限定理，以建立枢 
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轴变量，它近似满足枢轴变量的条件 2°. 最好通过例子来说明. 

例 4.5 某事件 A 在每次试验中发生的概率为久作〃次独 
立试验，以记 A 发生的次数，要求 p 的区间估计. 

设《相当大，则按定理 4. 3,近似地有 - np )/ Vnpl \- J ) 

V (0，1) .于是 （ 7„-吵)/7”/)(1 — V (0，1) 可取为枢轴变 
量■由 


P u a/2 ^{Y n — np )/y np{\ - p) ^ u a /2 \ — a 


可改写为 


(4.11) 


P ( A . ^ p ^ B ) ^ 1 — a (4.12) 

其中 A 是二次方程 

(Y„ — ?ip) 2 /(np(\ - p)) ^ u 2 a/2 

的两个根，即 


A f B 


n 

^ + U 2 a/2 


P 


u l/2 

2 n 


土 M 



Ml - 為) 

n 


u 2 g/l 

An 1 j 
(4.13) 


A 取负号， B 取正号，？= 

因为 (4.11) 和 （4.12) 只是近似的，故区间估计 [ A ， B ] 的置信 
系数，也只是近似地等于1 - a . 当？？较大，例如 n >30时，相去不 
远，实际上， n 太小时，找的区间估计意义不大.因为这种区间 

都失之过长，实际意义不大.这可由下面的分析看出 ：由于 0<多< 

1，彡（1 - 多）的最大值可为 1/4. 这时，区间 [ y \， B ] 之长，在把彡 （ 1 

-》）改为 1/4后，为 u a /2 l / Vi ~+ A ■取 a 二0.05,有 M a /2 -1.96. 
若要求这区间之长不超过 0.3( 这是一个很低的要求），必须 1.96/ 

in +(1.96) 2 <0_3.算出 ? i 至少应为39.可以看出 ：在试 验次数 
n 低于40时 ，求夕 的区间估计没有多大实用意义. 

例 4.6 设\，…，为抽自有波哇松分布 p(A) 的总体的 
样本，求 A 的区间估计. 
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记匕=1 +〜+久„.设《相当大，注意到波哇松分布的均 

值方差都是 A ，由第三章定理4.2,知 （h W )//^A 近似地有分 
布~(0，1).仿前例的做法，即得到 A 的区间估计 [A，B]，A，BS 
二次方程 

(Y„ - wA ) 2 = nku 2 a/2 

的两根，即 

A ,B = X + z^/2/(2n) 土 u a/2 \/ u 2 a /2 /(4 n 2 ) + X/n 

(4.14) 

A 取负号， B 取正号 ，X= Y ”/ n . 

例 4.7 设某总体有均值0，方差 a 2 . 6 和 a 2 都未知，从这总 
体中抽出样本X!，…，，要作6/的区间估计. 

因为对总体分布没有作任何假定，要作出满足条件1° 一 4°的 
枢轴变量是不可能的.但是，若 n 相当大，则据中心极限定理（第 
三章定理4. 2 )，有又 -0)4 〜 N(0,1) .但此处 a 未知，仍不 
能以 V:( 又 - 作为枢轴变量.因为 h 相当大，样本均方差 S 
是 c 的一个相合估计，故可近似地用5代7,得 

v^(X - 6 )/S - N ( Q ,\) 

由此就不难得出 0 的区间估计 

[x - s" a/2 /A ， x + Sfx aa /] 

它的置信系数，当”相当大时，近似地为 i-«. 近似的程度如何不 
仅取决于》的大小，还要看总体的分布如何. 

例 4.8 考虑在例 4.2 中提出的贝伦斯-费歇尔 问题： 

…， 久,,是从正态总体中抽出的样本 ， Y 1 , * • • , Y m 是从正 

态总体中抽岀的样本，要求 fi x - ^ 的区间估计. 

在本例中有 

[(X - Y ) - ( fx { - a\/ n + a \/ m 〜 N(0，1) 

(4.15) 

这里没有近似:分布是严格成立的,但是，由于 CTt , £72未知 ,(4.15) 
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并不构成枢轴变量.如果都相当大，则 w 和 d 分别可用 X 
样本的样本方差 S 〗 和 Y 样本的样本方差 S 〗 近似地代替之，得 

[U - y) - (A — "2)]/Vs?/；z + S 2 2 / m - N ( OA ) 

(4.16) 

与 （4.15) 不同， （4.16) 只是近似而非严格 .（4.16) 可作为枢轴变 
量，而得出的区间估计.当然，其置信系数只是近似的. 

例 4. 5 — 4. 8所导出的区间估计，叫“大样本区间估计”.一般 
如果一个统计方法是基于有关变量的当样本大小 72 很大时的极 
限分布，则称这一统计方法为“大样本方法”.反之，若依据的是有 
关变量的确切分布，则称为“小样本方法”.如例4,1 一 4. 4导出的 
区间估计就是小样本区间估计.这不在于 n 多大多小 :在例 4.1 一 
4.4 中，即使样本大小 w = 10' 仍是小样本方法.对例 4.5 而言， 
因使用的是极限分布，即使 n =40,仍算是大样本方法，不言而喻， 
大样本方法只有在样本大小较大时才宜于使用. 

4.4.4 置信界 

在实际问题中，有时我们只对参数0的一端的界限感兴趣. 
例如，0是在一种物质中某种杂质的百分率，则我们可能只关心其 
上界，即要求找到这样一个统计量3，使1的概率很大. S 就称 
为0的置信上界（或上限）.又如，6是某种材料的强度，则我们可 
能只关心其下界，即要求找到这样一个统计量么使 i e>e\ 的概率 
很大就称为0的置信下界(或下限）.下面给出正式的定义，为行 
文简单，就以一个参数 0 的情况为例. 

定义4_2 设：^ ，…， 是从某一总体中抽出的样本，总体 

分布包含未知参数 = ，…，又）和5 二扒 & ，…，又） 都是 

统计量（它们与0无关），则 

1. 若对0的一切可取的值有 

1 - a (4.17) 

则称万为0的一个置信系数为 1- a 的置信 上界； 
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2. 若对的一切可取的值有 

P,(^(X 1 ,-,XJ<0)= 1 -a (4.18) 

则称^为6的一个置信系数为1-«的置信下界. 

把 (4.17) 与 (4.18) 与区间估计的置信系数定义去比较，看 出: 
置信上、下界无非是一种特殊的置信区间，其一端为 00 或 - oo .因 
此，前面用于求区间估计的方法，都很容易平行地移至此处.例如， 
找 iV ("， J 2 ) 的均值"的置信下界，假定 a 2 已知，以 

^( X - fx )/ a 为枢轴变量，其分布为 A /(0，1) .有 

P(/n(X - fjt)/<y < u a ) 二 I - a 

此式可改写为 

> X - ) = 1 - a (4.19) 

把(4.19)与（4.18)比较，即知叉- ? ^7//^为 ; ^的一个置信下界， 
置信系数为1-«.将这个方法用于以前讨论过的诸例，得出一些 
置信上、下界的结果，例如（记号均见有关各 例）： 

1. 例 4.1 "的置信上、下界分别为（正号为上界） 

2. 例 4.2 川 - 以的置信上、下界分別为（正号为上界） 


(X - Y)± St n ^ m ^ 2 (ct ) 



3. 例 4.3 a 2 的置信上界为 U - l)S 2 /0-i(l— «)，下界为 
-l)S 2 /%n^(a). 

以上置信寒数都是1 - a ， 其余各例都与此类似，我们注意到 
- 点：在 置信区间中的《/2在这里都被 a 取代.这是由于区间估 
计是双侧的.共为 a 的概率由两边均分，各占 a /2 .而置信界则是 
单侧的. 

4 . 4.5 贝叶斯法 


用贝叶斯法处理统计问题的基本思想，已在 4.2 节 4.2.4 中 
阐述过了 •用它来处理区间估计问题，概念上和做法上都很 简单: 
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沿用 4.2 节 4.2.4 中的记号.在有了先验分布密度 / i (0) 和样本 

&，…， X ,后，算出后验密度，…， XJ . 再找两个数心，否 2 
都与 X 1? **, X „ 有关，使 

^ h{d \ Xi , ? X n ) d 6 = I - a (4.20) 


区间 [&， l ] 的意思 是：在 所得后验分布之下， 0 落在这区间内的 

概率为 1- a .因此， [ U 2 ] 可作为0的一区间估计，其后验信度 
为“后验”是指“有了样本以后”的意思.因此，所谓“后验信 
度为1 _ «”，可以解释为 ：在已 有了样本以后，我对区间 

[ U 2 ] 能包含未知参数0的相信程度为1 这与奈曼理论中 

的置信系数的含义相似，但理论观念上有别.因为这里整个架构根 
本不同. 

如果要找贝叶斯上下界，则只须把 (4.20) 分别改为 

I X ! ，…， X „) d 0 - \ ~ a (上界） (4.21) 

J — oo 

和 

Zh ( d \ X u -^ X n )Ad - 1 - a (下界） (4.22) 

J d 

对 (4.20) 而言还有一个问 题:满 足条件 (4.20) 的心很多，如何 

决定一对？ 一般是以使心-纟 2 最小为原则 *( 也可以是使&2/^ 
最小，这要看参数的性质与实际问题中的要求如何而定）.下面将 
通过例子解释这一点. 

例4 .9 考虑例 2 . 14 .在该例中所规定的先验分布之下，找 0 


* 另一种可取的方法是找使 


re 


— QC 


h{Q \ y X n )dd = a/2. 


- h(d \ Xj, ,X n )d6 = a/2 

6 2 
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的区间估计. 

在该例中已找出0 的后验分布为 N ( t ，7 J 2 ) 山 f 分别由 
(2.17)，（2.18)决定，这个密度函数在^点处达到最大值，然后在 

两边对称地下降.由此易见，如 要找&和心 满足 （4.20) 式，它只 

^^ d { J 2 = t ± c 时才能倾最小.由正态分布即知， c •必须 
取为妒于是得出贝叶斯区间估计 

[ ， - Wa/2, 艺 + Vf^a/2 _ 

其后验信度为 1- a . 

例 4.10 考虑例 2. 13.在此已求出当取尺(0，1)为先验分布 
时， p 的后验密度为 

h{p\X x ^-.X n ) 

= P X (\ - p)^ x /(^(X + 1 ,/z - X + 1),0<^ <1(4.23) 
要找力 i ， h ， 使 

2 p x (l - p ) n _ x dp/jKX + l,n - X + 1) - 1 - « 


并使? > 2 - 最小，问题就麻烦些. (4.23) 
的图形大致如图 4. 3.它在点 p = X / n 处 
达到最大，然后往两边下降.故只有图中 
c、d 那种对子，才能使 d ~ c 最小.方法 
是 ：先在 X / n 左边取定一个值 c . 由方程 
r Y (l - c、 n - x 二 p x (l - p) n ~ x 

以户 为未知量，解出 p 二义从图 4.3 看 
出， c / 必大于 XAz . 计算积分 



Cd 

p x (l - c ”- x dp / j 3 (x + l f n ~ X + 1) = A 

J C 


若 A >1 - 0 ^，表不(：取得太小.若 A <1 - a , 则表示 c 取得太 
大.经过几次调整后即可找到足够接近的近似值. 

与奈曼的理论相比，我们看出，这里求区间估计的过程容易多 
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了.固然，在寻找适合 (4.20) 的么和士 时，往往计算很繁，但并无 
原则困难，用计算机也很容易实现.但用奈曼的方法，则涉及到麻 
烦的分布问题.如例 4.1 一 4. 4这几个例，就基于有关的统计量服 
bU 分布，卡方和 F 分布等.这不是常有的情况，而只是少见的几 
个特例(幸好这几个特例在实用中用得很多）.往往由于分布问题 
无法解决，而只好求助于大样本理论.实用上往往样本不很大，使 
我们对由此而产生的误差（即实际的置信系数与名义的置信系数 
的距离)不甚了然.贝叶斯方法不存在这些问题.当然，贝叶斯方法 
有其自身的问题，即先验分布如何定，这一点我们在前面已提过 
了. 


习 题 

1,设；^，…，是抽自负二项分布的样本，求 p 的矩估计与极大似然 
估计. 


2. ⑴设〜，…，是 /Z 个实数，定义函数 A ( a )= \aj ~ a \ .证 

I - 1 

明：当 a 为化，…，的样本中位数（见 4.29) 式）时， /z( a) 达到最小值 .（b) 

设&，…，为自具概率密度函数 f e - 丨〃 W 中抽出的样本(这个分布叫拉 

普拉斯分布），求参数0的矩估计与极大似然估计. 

3. 设&，•••，&为抽 自均匀 分布尺 （0，2们的样本 ，求沒 的矩估计与极 
大似然估计. 

4. ( a ) 证明 


f(x;a,a) 


{^Tko^Y\x 



la 1 


(x — 



- 00 < x < 00 

作为 X 的函数是概率密度，其中 a 为参数， - oo < a < oo , a >0. 

( b ) 设 Xi ，…，为抽自此总体的样本，求 a 和 ex 2 的矩估计. 

( c ) 列出 a , a 2 的极大似然估计所满足的方程，并指出一种叠代求解的 
方法. 


5.设 X 为抽自波哇松分布 P ( A ) 的样本(样本大小为1)，参数 A 有先验 
密度 / KA ) = e — A (当 A >0./ i ( A )=0 当 A <0) •试求 A 的贝叶斯估计. 
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6. 设；^ ，…，&为抽自指数分布的样本.分布中的参数; I 有先验密度 
A(A) = 又 6^ 当； 1>0 ，九 （/0 = 0 当 A<0, 求 A 的贝叶斯估计. 

7. ( a ) 设 N, n, m 都是自然数， n < N. 证明组合公式 

('注意^9=0当 


N 

I ： 


m 



N — m 


N + 


x = 0, 1 r" ， n 


m=Q \ j ： / \ n — X / \« 十 1 

( b ) 设 X 为抽自超几何分布 

m \ / N — M 




= JC } = 


N 

x / \ n — x i/ l n 
的样本 ， M 为未知参数，其先验分布为 

P(M = k) = 1/(N + l)，k = 0 ， 1，_..”V 
试利用 （ a ) 的结果 证明： Af 的贝叶斯估计为 


M{x) - (N + 2)(X + l)/(n + 2)-1 

8. 设 X 为抽自二项分布 B ( n ， p ) 的样本， n 已知，户为未知参数. 证明: 
对仟何常数 c , U > c >0, 可找到 /) 的先验分布（可以为广义的），使 /) 的贝 
叶斯估计为 （ X + c )/(« + d ). 

9. 设 X 为抽自二项分布50，/>)的样本，《已知，而/>为未知参数 .（ a ) 
作 〆 的一个无偏估计 .（ b ) 证明 ：若 〆 />) 有无偏估计存在 ，则奴 p ) 必是 /) 
的不 超过〃 阶的多项式 .（ c ) 反过来，对/>的任一不超过《阶的多项式 
W /> ) ，它的无偏估计必存在. 


10. 设& ，…， 尤为抽自 K (0,60 的样本 .（ a ) 证明 j ^ maxU ! ，…， 
X ,,) — mind ，…，是0的一个无偏估计 .（ b ) 证明：对适当选择的参数 

q …，； O 是9的无偏估计.但这个估计的方差比另外两个 

无偏估计又和，…， &) 都大（除非 n = l ). 

11. 设 X 为抽自波哇松分布 P ( A ) 的样本 .（ a ) 证明： g ( A ) 二 e — 2A 的唯 

…的无偏估计在（ X )为 ：^( X )=1 当 X 为偶数 ，^( X )= -1 当 X 为奇数. 
( b ) 你认为 U ) 中的估计是否合理？如不合理，试提出一个合理的估计. 


12.设为抽自正态总体 A / U ， ff 2 ) 的样本，则已知^ = 

it 

, -X) 2 为 CT 2 之一无偏估计.证明虽非 d 的无偏 

1 1 71 十 i 
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估计，但呙的均方误差较小，即:£(心-一) 2 <£：(乂- (7 2 ) 2 .本题及11题都 
说明：无偏估计不一定是最好的选择. 

13. 设在12题中 a 已知 .（ a ) 则^ = — 2(^ - a ) 2 也是 a 2 的无偏 

y % % 

i — 1 

估计.且其方差小于上题中的估计&的方差 .（ b ) 进一步 证明: ％是 y 的 
MVU 估计 • 

14. ，…， X „ 是从具概率密度函数 

2 y 6/n exp (— 6 工 2 )， x > 0 

0 ， ^<0 

的总体中抽出的样本.证明 ：对适 当选择的常数 C，S = cj ] x ?/ n 是1/沒的 

i - 1 

MVU 估计. 

15. ( a ) 若都是0的 MVU 估计，则十9 2 )々也是 ，（ b ) 若 g 

是 <9的 MVU 估计而 a 关0和6都是已知常数，则 a 》 十6是 M + 6的 MVU 
估计. 

16. 设&，…，； C 为从某一个具均值0而方差有限的总体中抽出的样 
本.证明 ：对任 何常数 Cl ，…，^，只要 ^ c n = 1，则必是0的无偏估 

I - 1 I -- 1 

计.但是，只有在 q 二「2二… = 1/ n 时，方差达到最小（指在上述形式的 

估计类中达到最小.实际可以 证明: X 在9的一切无偏估计类中方差也达到 
最小）. 

17. 设&，…， X „ 为抽自均匀分布沢（0，0)中的样本.证 明：对 任给的 
1 - o (0< 1 - a < 1 ) ，可找到常数 ，使 [ max ( X ! ，…， X „ ) ， c „ max ( X ! ，…， 
X „)] 为 0 的一个置信系数 1 - 的区间估计. 

18. 设&，…， :^和 ，…， Y w 分别是抽自正态总体 A /(<?， d ) 和 _， 

4) 的样本， H 和4都已知 .（ a ) 找常数 C ，么使3 = rX + dY 为6的无偏 
估计.并使其方差最小（在所有形如 a X + 6 Y 的无偏估计类中最小 ）.（ b ) 

基于作出0的置信系数为1-«的置信区间. 

19. 设&，…，是抽自具参数的指数分布的样本，&，…，八，是抽 
自具参数为 A 2 的指数分布的样本，试求 A 2 / A ! 的区间估计. 

20. 设乂^心为抽自具密度函数 
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lo,x < d 


的总体的样本.参数 <9 的先验密度为 

h{d ) = 


\e\0 > 0 

lo^^o 


求 （； 的！ 4 叶斯区间估计. 

21. 证明 （3.2) 式. 

22. 设，…， X,,为抽自均匀分布 总体只 （仏，^)的样本.证 明： 存在只 

依顿 j 的常数，使 X - 和 X + 分别是心和心的无偏估计. 

23. 设乂，…，总为抽自正态总体 /V(0，^ 2 ) 的样本，^和^都未知.证 
仍为3的 MVU 估计. 
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第五章假设检验 

5.1 问题提法和基本概念 

5.1.1 例子与问题提法 

假设检验的概念在第四章 4.1 节中就曾提到了.这里我们先 
通过对几个常用例子的分析，总结出假设检验问题提法的形式.然 
后在这个基础上，引进关于假设检验的一些基本概念. 

例 1.1 在 4.1 节中我们曾提到一个在元件寿命服从指数分 
布的假定下，通过对抽出的若干个元件进行测试所得的数据（样 
本），去判定“元件平均寿命不小于5000小时”是否成立的问题. 

我们把与这个问题有关的事项，用统计学的语言清楚列出如 
下： 

1. 我们有一个总体，即所考察的那一大批元件的寿命.我们 
对总体分布作了一个假定，即它服从指数分布(第二章 (1.20) 式）， 
该分布包含了一个未知参数 A . 

2. 我们有从该总体中抽出的样本，…，(即抽出的那 n 
个元件测试出的寿命）. 

3. 我们有一个命题，其正确与否完全取决于未知参数 A 之 
值，即 “1/ A >5000”. 它把参数 A 的所有可能取的值 0<A<oo 分 
成两部 分:一 部分是叫= | A : A <： l /5000 f ， 一 部分是 Hi - { A ： A > 
1/50001. Ho 内的 A 值使上述命题成立，而的内的 A 值则使上述 
命题不成立.故我们的命题可 记为： “ A 属于％”或用符号写为“; 
只 () ”，以至简记为“付0”. 

4. 我们的任务是利用所获得的样本& ，…，尤 ，去判断命题 

是否成立.其所以能这么做，当然是因为样本中包含了总 
体分布的信息，也就包含了是否成立的信息. 

. 208 . 



在数理统计学上，把类似于上述 “AG Ho ” 这种命题称为一个 
“假设”或“统计假设”.“假设”这个词在此就是一个其正确与否有 
待通过样本去判断的陈述.不要把它和通常意义相混.例如在数学 
上常说“假设某函数处处连续”之类的话，那是一个所讨论的问题 
中已被承认的前提或条件，与此处所讲的完全不同. 

在数理统计学上，通用“检验”一词来代替上文的“判断”.检验 
一词有动词名词两种含义，动词含义是指判断全过程的操作，而名 
词的含义是指判断准则.例如，就本例而言一个看来合理的判断准 
则是：“当又 > C 时认为假设正确，不然就认为它不正确” 
( C 是一个适当的常数，以后再谈）.这就是一个检验（名词）.“认 
为假设正确”在统计上称为接受该 假设； “认为假设不正确”在统计 
上称为否定或拒绝该假设 •到此 为止统计问题可以说已完成了：至 
于接受或否定假设以后如何办(如在本例中，若认为 A >1/5000 不 
成立，该如何处理)？这不是我们要考虑的事. 

以下几例的解释都与上述过程完全平行. 

例 1.2 有人给我一根金条，他说其重量为 312.5 克.我现在 
拿到一架精密天平上重复秤《次，得出结果为 Xi ，…，.我假定 
此天平上秤出的结果服从正态分布这是一个假定，它 
已被承认，不是检验对象）.这时，我要检验的假 设为： “^ = 
312.5”. 在本例5可以已知或未知，如果 cr 未知，则总体分布含多 
个参数，但假设可以只涉及其中一个.问题也可以是检验方差（当 
然，在方差 C 2 未知 时）： 比如，人家告诉我这天平的误差方差为 
1( T 4 U 2 )， 我怀疑它是否如此，这时我可以拿一个物件在该天平 
上秤 n 次得，… ，& •利用这些数据去检验假设= 仍 

假定总体为正态分布以（^，^)，"就是那个物件之重，它可以已 
知（例如你拿一个其重量已经测定的物体去秤），也可以未知. 

例 1.3 某工厂一种产品的一项质量指标假定服从正态分布 
A /(/^， a 2 ). 现在对其制造工艺作了若干变化，人们说结果质量起 
了变化或有了改进.我想通过样本来检验一下. 

假定修改工艺后，质量指标仍服从正态分布，且只均值可能有 
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变而方差不变，即分布为 N (卩 我把要检验的假设定为 

Ho ： \pt\ = 夕 2 丨 

或(设均值大时，质量为优） 

这要仔细解释一下. 

选 H () ，是针对“质量起了变化”的说法.由于你不能凭空说内 
不等于 "1 ，我就先作假设 Ho . 如果经过检验 Ho 被否定了，则我 
承认质量起了变化，不然就只好仍维持 Ho . 自然，你可能辨驳说， 
为何不取 "2 丨作为假设去检验？这不也一 * 样：你接受了它， 
即为质量确有 变化; 若否定了它，则认为无变化.从表面上看这个 
提法无可非议，因为两种提法从实质上看只是表述方式不同.但有 
其不可这样做的理由，这一点在以后将予以解释，现在还说不清 
楚. 

选 H (/ 是针对“质量有了改进”的说法，与上文类似. 

本例中 a 2 可以是已知或未知，在应用上以未知的情况居多. 
又“工艺变化前后质量方差一样”是一个多少有点人为的假定（一 
般，质量的改进也常反映在其波动变小上，即方差会小些），如假定 
前后方差不一样，则得到贝伦-费希尔检验问题，这是数理统计学 
上的一个著名的问题，其区间估计形式已在前章讲过了. 

如果不认为质量的平均值有多大问题，而问题在其方差上，则 
假定在工艺改变前后，质量指标的分布分别为和 

/ V (// 2 ， d ). 这时要检验的假设可以是 “ a 卜或 

例 1.4 甲、乙两位棋手下棋.共下^局，甲 m 胜 ; z - M 负 
(设无和局）.根据这一结果对两位棋手的技艺是否有差别下一个 
判断. 

若以户 记每局中甲胜的概率，则乙胜的概率为1-，假定每 
局的结果独立（这很接近事实，除非其中一位或两位的心理素质 
差，以致已赛各局的结果显著地影响着他的情绪）.则若以 X 记在 
?! 局中甲胜的局数，将有 X 〜 BU ， 户）.我们的问题可提为 ：检验 
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假设 > = 1/2”. 

例 1.5 有一颗供赌博或其他用途的骰子，怀疑它是否均匀， 
要用投掷若干次的结果去检验它.若以掷出点数的概率分布来表 
示，所要检验的内容可表为假设 

Hq : Pi = p 2 =…二 P 6 二久/6 (1.1) 

这里九是骰子掷出；点的概率.这意味着把骰子的均勻性解释 
为 :它掷 出任何一点的机会都相同. 

从以上诸例我们明确了假设检验问题的提法.现在介绍假设 
检验中几个常用的名词. 

1. 原假设和对立假设 

在假设检验中，常把一个被检验的假设叫做原假设，而其对立 
面就叫做对立假设.如在例 1.1 中，原假设为 Ho : A < l /5000, 故 
对立假设为 H 1: A >1/5000.在例 1.5 中，原假设为（1.1)，而 
对立假设为 H r ， p x ，…， 不完全相同” • 

原假设中的“原”字，字面上可解释为“原本有的”.如在例 
1.2,你可以说 "=312.5 原本就不存在问题，只因有人怀疑，才提 
出了也存在"关 312. 5的可能 . p =312.5 是“原有”的而"关 
312.5 是“后来的”，这样的解释也并非处处适合（见下），的确，对 
这个“原”字不必硬加一种解释. 

原假设又常称为“零假设”或“解消假设”'这名词的含义拿 
例1 .3 中的假设 H 0 :^ i =// 2 去看最贴切.因为，;^ 反映工艺 

变化后所产生的效应.你这个假设把这个效应化为零了，或把 
这个效应“解消”了.不难 理解： 在有些情况下这个名词也并非很贴 
切，故也有不少人不高兴用这名称. 

对立假设就是与原假设对立的意思.这个词既可以指全体，也 
可以指一个或一些特殊情况，例如对例1.1，我们说对立假设是 
A >1/5000,这是指全体•但也可以说 A = 1 .5 是一个对立假设，这 
无非是指1 .5 这个值是对立假设的一个成员.对立假设也常称为 

* 零假设或解消假设都是从英语 Null Hypothesis — * 词而来. 

• 211 ■ 



“备择假设”，其含 义是： 在拋弃原假设后可供选择的假设. 

2. 检验统计量、接受域、否定域、临界域和临界值 

在检验一个假设时所使用的统计量称为检验统计量.拿例 
1 . 1来说，我们前已提到了一个在直观上合理的检 验：当 X > C 时 
接受原假设，不然就否定.这里用的检验统计量是 X . 

使原假设得到接受的那些样本^，…，所在的区域 A ， 
称为该检验的接受域，而使原假设被否定的那些样本所成的区域 
只，则称为该检验的否定域.否定域有时也称为拒绝域，临界域.如 
在例 1.1 中，刚才所提到的检验的接受域为 

否定域为 

R - + + X , < nC \ 

A 与 R 互补，知其一即知其二.定一个检验，等价于指定其接受域 
或否定域. 

在上述检验中， C 这个值处于一个特殊的 地位： X 之值一越 
过三这 个界线，结论就由接受变为否定.这个值 C 称为检验统计 
量 X 的临界值.当心中明确了用什么统计量时，也可以说“检验的 
临界值”.例如，若心中已明确用统计量 A +… + ，则临界值为 
二也可以有不止一个临界值.如在例1.1，若要检验的原假设改 
为 “A = 1/5000”，则一个合理的检验法 是：当 C !< X < C 2 时，接 

受，不然就否定. C 、， C 2 是两个适当选定的常数，它们都是临界 
值. 

3. 简单假设和复合假设 

4. 论是原假设还是对立假设，若其中只含一个参数值，贝 ij 称为 
简单假设，否则就称复合假设. 

如在例1_ 1中，原假设1/5000包含所有大于0而不超过 
1/5000的 A 值，它是复 合的； 对立假设 A >1/5000也为复合.再看 
例1 _2.若 a 2 已知，则原假设只含参数^的一个值 312. 5,故是一 
个简单 假设； 若 cr 2 未知，则原假设包含了所有形如 

(312.5， y ) : f j 2 任意 
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的参数值，故是复合的.这里的要点是.•在决定一个假设是简单还 
是复合时，要考虑到总体分布中的一切参数，而不止是直接出现在 
假设中的那部分参数.如在本例，一虽则不出现在假设中，但因为 
它是总体分布的未知参数，故仍要考虑进来.这种参数（如此处的 
。 2 ) 在数理统计学上称赘余参数 j 在区间估计中这个名词也常提 
到，例如在正态总体 N ( p , CT 2 ) 中，都未知，要作"的区间估 
计，这时 (7 2 就是赞余参数. 

5.1.2 功效函数 

功效函数是假设检验中最重要的概念之一.在以下将看 到：同 
一个原假设可以有许多检验法，其中自然有优劣之分.这区分的依 
据，就取决于检验的功效函数. 

例 1.6 再考虑例 1.1， 并设我们取定了如下的检 验中： 

0:当 X > C 时接受，不然就否定 （1.2) 

如果我们使用这个检验，则原假设 f ^ ): A < l /5000 被接受或否定， 
都是随机事件，因为其发生与否，要看样本如何，而样 
本是随机的.在此，原假设被否定的概率为 

M 入）二 PaU < C ) 

P A 的意义以前解释过，它是指事件 lx < cl 的概率，是在总体分布 
的参数值为 A 时去计算的.因为（见第二章例 4.9)2 A(Xi +…+ 
尤）〜，故如以 K 2n a Xln 的分布函数，则有 

^(A) = 巧 （& + …+ < nC) 

二 /M2AU! + …+ ) < 2XnC) 

^K 2n (2XnC) (1.3) 

其值与 A 有关，且随 A 上升而增加.因为 A 愈大，离开原假设；!< 
1/5000就愈远，一个合理的检验法就应当用更大的概率去否定 


' 英语 Nuisance Parameter . 也有译为“多余参数”或“ i 寸厌参数”的，含心使问题泣 
杂化的意味. 
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它. 


函数 （1.3) 就称为检验 （1.2) 的功效函数.由此，提出下面一般 
定义： 

定义 1.1 设总体分布包含若干个未知参数仏，…，久.只 0 是 
关于这些参数的一个原假设，设有了样本 ，…， ，而少是基于 
这些样本而对 Hq 所作的一个检验.则称检验中的功效函数为 
㈡ M ， …為）二 巧，...，5(在检验0之下，只 0 被否定） 

I k 

(1.4) 

它是未知参数(9卜…，^的函数. 

容易明白 ：当某 一特定参数值（的，…，列）使 H () 成立时，我们 
希望~(的，…，的）尽量小（当成立时我们不希望否定它）.反 

之，若（的，…，的）属于对立假设，则我们 希望知 （的，…，的）尽量 
大（当不成立时我们希望否定它）.两个检验，中 2 (同一个原 
假设的）哪一个更好地符合了这个要求，哪一个就更好. 

由于当（化，…，仏）属于对立假设时，我们希望功效函数值知 
(心，…，仏）尽可能大，故在（仏，…，^)属于对立假设时，称 (3 M ， 
…，九）为检验少在（仏，…，乂）处的“功效”.这称呼只用于对立假 
设处.因为，当為）属于原假设时 ，馬 （％，…為）以小为好， 
这时称它为“功效”就不合情理了. 

5.1.3 两类错误、检验的水平 

在检验一个假设时，有可能犯以下两类（或两种）错误之 
一 正确，但被否 定了； 2. 不正确，但被接受了.可能犯 

哪一类错误，要视总体分布中有关的参数值而定.如在例 1.1 中， 
若参数 A 之值为0.0001，则我们只可能犯第一种错误，而当 A 二 
0.1 时，则只可能犯第二种错误. 

若以 A ， …， d k 记总体分布的参数，办（心，…，馬）记检验少 
的功效函数，则犯第一、二类错误的概率 a ⑽（化，…，久）和 
(01，…，仏），分别为 
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o^(di, …， d k ) 二八 


爲（沒 1 ，…為），当 （<9 i ，…為） 


0 , 


当 (心， …為斤叶 


(1.5) 


j0 ， 当（仏 ，… ，氏） 

’ （ t …—办（仏，…為），当 （力 ，… 為） GH 】 ^ 
这里是对立假设. 

在检验一个假设 Ho (对立假设 Hi ) 时，我们希望犯两种错误 
的概率都尽量小.看表达式 （1.5) 和（1.6)，即得出我们在上段中已 
提到过的结论，即在选择一个检验少时，要使其功效函数知在 
H 0 上尽量小而在上尽量大.但这两方面的要求是矛盾的，正 

好像在区间估计中，你要想增大可靠性即置信系数，就会使区间长 
度变大而降低精度，反之亦然.在区间估计理论中，是用“保一望 
二”的原则解决了这个问题，即使置信系数达到指定值，在这限制 
之下使区间精度尽可能大，在假设检验中也是这样办 :先保 证第一 
类错误的概率不超过某指定值 a ( a 通常较小，最常用的是 c = 
0.05 和0.01，有时也用到 0.001 ，0.10,以至 0.20 等值），再在这 
限制下，使第二类错误概率尽可能小. 

定义 1.2 设少是原假设 H () 的一个检验 ，抛 （ h ， …，久）为其 
功效函数，《为常数，.如果 


洳(^，…，馬）<«，对任何（士，…， 4) 6 (1.7) 

则称0为 Hq 的一个水平 a 的检验，或者说，检验0的水平为 a ， 
检验中有水平 ar . 

显然，若 a 为少的水平而~>〜则 q 也是检验的水平，这 
样 ，一 检验的水平并不唯一.为克服这点不方便之处，通常只要可 
能，就取最小可能的水平作为检验的水平.不少著作中就直接把 
水平定义为满足 （1.7) 式的最小的这样做，唯一性的问题解决 
了，固然是好，但也有其不便之处，即有时我们只知道 （1.7) 成立， 
而无法证明 a 已达到最小，这时就不能称 a 为少的水平，不好如 
何称呼.因此，我们维持定义1.2,但有这样一个默契 ：只要 可能， 
尽量找最小的 a . 
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以上所说的叫做“固定（或限制）第一类错误概率的原则”，是 
目前假设检验理论中一种流行的做法.你可以 问：为 什么不固定第 
二类错误概率而在这个前提下尽量减小第一类错误的概率？回答 
是： 你这么做并非不可以，但是，大家约定统一在一个原则下，讨论 
问题比较方便些，这还不是主要理由.从实用的观点看，确实，在多 
数假设检验问题中，第一类错误被认为更有害，更需要控制.这 • 
点将结合下一节中实例的讨论再作说明.也有些情况，确实第二类 
错误的为害更大，这时有必要控制这个概率，换句话说，“控制第一 
类错误概率”的原则也并非绝对的，可视情况的需要而变通之. 

5.1.4 —致最优检验 

定义 1.3 沿用定义 1.2 的记号.设少为一个水平 a 的检验， 
即满足 （1.7) .若对任何其他一个水平《的检验#，必有 
&(〜 ，…， d k ) > p g ( di ， …為），对任何 A ，…， 

( 1 . 8 ) 

这里为对立假设.则称少是假设检验问题的一个水平 
a 的一致最优检验. 

简单地说，水平 a —'致最优检验， 
就是在一切水平 a 的检验中，其功效 
函数在对立假设上处处达到最大 
者.或者说，是在一切其第一类错误概 
o 1 (h (e 率不超过《的检验中，第二类错误概 

- P 0,{0) 率处处达到最小者.难就难在“处处” 

- p 0l m 这两个字.“一致最优”中的“一致”，就 

是指这个“处处”而言.就拿两个检验 

图5 1 

$和少 2 的比较来谈.为清楚计，不 
妨设原假设为(9<1，对立假设为 0>1 .设⑪和少 2 都是 
水平《的检验，其功效函数分别如图 5.1 中的实线和虚线所示. 
在对立假设仏处，~大于也 2 . 而在仏 处则是 ^大干 故在 
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这两个检验 ^!，^ 2 中，没有一个在对立假设各点处处优 于另一 
个.由于水平《的检验非常多，其中能有一个一致最优者，就不是 
常见的情况而是较少有的例外，更确定地说，只在总体分布只依赖 
一 个参数6?，而原假设 Ho 是或是 6 冰 的情形，且对 
总体分布的形式有一定的限制时，一致最优检验才存在.其他情况 
则是稀有的例外.在下节我们讨论一些具体检验时，将指明哪些是 
一 致最优检验.有的情况的证明将在本章附录中给出. 

由于一致最优的条件太高，在假设检验理论中也引入了另一 
些优良准则.这些都超出了本课程的范围之外，不能在此介绍了. 

本节所讲的假设检验理论的基本概念，特别是限制第一类错 
误概率的原则及一致最优检验等，是 J . 奈曼（前在区间估计一节 
中已提到）和英国统计学家 E . S . 皮尔逊 （ K . 皮尔逊的儿子）合 
作，自1928年起开始引进的.基于这些概念所发展的假设检验理 
论 ，一 般称之为奈曼-皮尔逊理论.从统计学的历史看，最早引进假 
设检验并对之作了重要贡献的统计学家，还要算我们以前多次提 
到过的 K . 皮尔逊和 R . A . 费歇尔•皮尔逊的工作将在本章 5.3 
节中介绍. 


5.2 重要参数检验 

本节中我们将讨论几个常用的检验.构造检验，也有些带一般 
性的方法.但这些方法应用上比较成功的情况，很大一部分也就是 
本节要讲到的几个常用例子.所以，我们不采取从介绍这种一般方 
法出发再回到具体例子的讲法，而在每一个具体问题中，从直观想 
法出发去构造看来是合理的检验. 

这种直观方法是基于参数的点估计.原则上很简单:考 虑一个 
单参数的情形.设被检验的原假设是 二％ ，或(9<知，或 
没0■有了样本以后，先找外的一适当的点估计 r •如果 d 二6、、 成立. 
则了与％相去不应太远，故直观上看，应当在 j T -0 O | >某常数 C 时, 
否定，而在 | T -0 O | < C 时接受(也可以两边不对称，故一般也可 
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以:在 qgTKQ 时接受 Ho ，不然就否定 Ho ). 如果要检验的原假 
设是沒<%，则应当在 T > C 时否定叫，这看起来很简单.但问题 
在于，我们对检验有一定的水平要求，上述简单处理有时无法满足 
这一要求，而需要在上述基础上作一些修改.这就没有定规了.从 
以下实例的讨论中，读者会能悟岀这里面的问题所在. 

本节的另一个任务是通过这些例子的解说，加深对上节所述 
一般概念的理解，并阐明若干在前节没有深人发挥的论点. 

5.2.1 正态总体均值的检验 

设&，…，是自正态总体 iV (0， a 2 ) 中抽出的样本，我们来 
讨论有关均值0的假设检验问题.在应用上常见到的形式有（％ 
是一给定的 数）： 

r H 0 : d>d 0 ， H l: d<d 0 
2 ° Ho ： e<d 0 ,H\ ： e>e 0 
3° H〃 0: d = d 0 ， H 〃 l : d ^ d 0 

H 0 ， ir G 和为原假设，为对立假设.以后都按这次 
序： 原假设在前. 

分两种情况讨论 
1.方差^已知时 

先考虑检验问题 r •以 x 记样本均值， x 是0的估计.故 x 
愈大，直观上看与原假设愈符合•反之, x 愈小，则与对立假设 
愈符合.由此得出一个直观上合理的检验巾是 

A 当叉时接受原假设 H G ， X < C 时否定 Ho (2.1) 

要定出常数 C ， 使检验有给定水平 a ，为此要考虑0的功效函数 
办 （60 .按定义（1.1)，有 

^(6) = P e (X < C ) 

~ {X - 6 )/a ( C — 0) / a ) 

当总体有正态分布 N (0, a 2 ) m ,/ n ( X - d)/a 服从标准正态分布 
N (0，1) .以少记其分布函数，有 
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^{6) - 0(/7i(C - d/a) ( 2 . 2 ) 

当 0 增加时， /7 z ( c - 们 / a 下降，故知（0)也下降，这样一来，要 
使知 0)< u 当心时）只要 〜( A 、 h 即可.按记号〜的定 

义（见第四章 (4.3) 式），应取 C 满足 7^( C - 6{)) /a — wi- a = - u a , 
由此得 


C = 6q — au a / J~n (2.3) 

(2.1) 和 （2.3) 结合决定了检验少.以 C 代入 (2.2), 得到少的功 
效函数为 


知 (d) = €>(/Ji(do - d)/c-uj (2.4) 

当 d < do 即属于对立假设^^时 ，^(60 愈大愈好.怎样才能 
使 Ae >(0) 大呢？从公式 （2.4) 分析，并牢记分布函数是非降的，易 
得出以下几条 结论： 

( a ) 沒愈小 (6) 愈大.直观的解释是：0愈小，则离原假设 
H 0 愈远，愈易和原假设分辨开，即犯错误（第二类）的概率应愈 

小，因而你（0)应愈大•当&<0 0 但0接近知时，知 （60 〜 a . 由于 
a 一 般是很小的数，这时犯第二类错误的概率 
很接近 1. 

( b ) 对固定的愈大，办（0)愈小.直观的解 释是： a 愈 
大，表示误差的方差愈大 .0 与 d Q 的差別被“淹没”在误差中，不易 
被检出，因而犯错误的概率就大了•正如一杆秤误差愈大，愈不易 
分别出两件其重量略有不同的物件孰轻孰重.反之^ 愈小，知 (0) 
愈大，表示 0 与的差别愈易检岀. 

( c ) a 愈大，则 M a 愈小，而办 （0) 就愈大.直观上的解释是：《 
愈大，表示能容许的第一类错误概率增大，这时，作为补偿，第二类 
错误的概率应有所降低，即 ^(0) 应增加.这里明白看出两种错误 
概率的矛盾关系. 

如果我们提出 要求： “犯第二种错误的概率要小于指定的#> 
0”,该怎么办？这等于要求 

心⑻ >1 _ M < 〜 (2.5) 
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但是，当 9< 〜但0 接近％ 时，你 （603 a ，而因为 a ，/?都很小，一 
般有 a < 1 - /?. 这就看出 ：要求 （ 2 . 5 ) 无法达到.我们只能放松一 
点，要求对某个指定的仏<0 () ，有 

- 13,当 d ( d ' (2.6) 

因为爲 （6) 随6增加而下降（图 5.2). 
(2.6) 等价于要求 

^(^,)> 1 - (2.7) 

按 (2. 4)，此即 

^— 6]) fa — u a ) > 1 ~ j 3 
或者说 V 71 ( d{) - 6 [)/(7 - u a ^ u^j Bp 
n ^ a 2 ( u a + u ^) 2 /( do - 9\ ) 2 (2.8) 

就是说，样本大小至少应达到 （2.8) 右边那么大.例如，若 a 2 - 1, 
a =召=0,05，没0 — ^=0 • 5 ，贝 y 

n >(1.96 + 1.96) 2 /(0.5) 2 - 61.4656，” >62 
即样本大小至少为 62. (2.6) 式中仏 的选择，当然要看实际需要 
而定.它表示，只有对化及比化更小的值来说，否定才是 
要紧的， （2.8) 式中 n 与^成正比，即当方盖 <7 2 愈大时，为达到一 

定的分辨率(在此可以用 | 化 | 来刻画），所需要的样本数也愈 

多. 

对检验问题2°，仿照上述讨论，容易得出基于检验统计量 X 
的检验是 

‘：当 X < +仰 〆 /^时接受外， 

不然就否定 H g (2.9) 

此检验的水平为 a ， 功效函数为 

/?中(汐） - 1 ~ 0 (sfri (6 {) - 6)/(7 + u a ) (2.10) 

若选定 d '> d Q , 而要求#当^^^，则得最小所需样 
本大小 n 仍由 （2.8) 式决定. 

如果样本（&，…，； O 使得 
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— au a / \Tn ^ X ^ + < m a /\fn (2.11) 

则按检验问题 r 的提法，应接受 h q : 外，而按 r 的提法，则应 
接受.从常理看这有矛盾.其实，这反映了统计推断的 
一 种特点，它不是按那种“非此即彼”的逻辑.这类现象我们以前就 
碰到过了 ：作- 个参数0的点估计，据同一组样本你可以作岀若 
干不同的估计，讲起来都有其合 理性； 作区间估计时，不仅用不同 
的枢轴变量可导出不同的估计，即使用同一枢轴变量，界限可以有 
不同选择，置信系数可以有高低，都可导致不同的区间，这些我们 
都不认为有矛盾.此处亦然，关键在于原假设的选定并非任意，而 
要看问题中提法上的“倾向性”.此语可通过下面的实例来解释. 

假定某工厂生产的一种产品，其质量指标服从正态分布 
n (0，^)， 且假定 d 已知 . 0 为平均质量指标.设 e 愈大，质量愈 
好，而知为达到优级的界限.某商店经常从该厂进货，商店提出的 
条件是按批验收，只有通过原假设 6>6 0 的检验的批才被接受.于 
是有两种情况： 

(1) 从过去较长一段时期的记录，商店相信该厂产品质量总 
的说是好的，当然这不排斥偶尔也出现较差的批.于是它同意把 

作为原假设并选定一 1 个较低的检验水平 a ， 例如 a ==0.05 甚 
至 a 二 0.01 .这样做对工厂有利，因为这保证 了：优 质的批（即 
0 0 的批）只以很低的概率 a 被拒收，而非优质的批仍能以不很小 
的概率被接收.从商店的角度考虑，他们也认为这样做并非 不利： 
一则因为该厂产品质量一贯表现好，故检验可放宽些，要有很强的 
证据（即 X < d 0 - ) 才否定 6^ d 0 . 一则因为，既然大多数 

批质量是优等的，取较小的 a ，保证了这样的批能以很大的机会通 
过检验，这对商店有利.又因为质量差的批本来就不多，即使这样 
的批有较大比例混过检验，影响也不大. 

(2) 反之，若以往一段时期的记录表明，工厂产品质量并不很 
好，这样，商店就可能坚持以作为原假设，并选定一较低的 

水平心这样做，表明商店要求要有较强的证据（即 x > % + 
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Gu a /「n ) 才能相信这批产品质量为优.等 f 说-个人一向表现+ 

好，则必须有较显著的好的表现，才能相信他确有进步.这样做就 
达到了至少把 100(1 - a )% 的非优批拒之门外的目的. 

由此可见（从以商店为主动的一方看），同一个问题 （ s 卩 e ^ d 0 
或否由于对背景的了解不同而采取了不同的态度，具体是通过 
选择何者作为原假设来体现.到这里，也就不难理解当样本满足 
(2.10时，两个原假设/^和片 / () 都能接受的表面矛 盾：你 产品质 
量一贯很好时，我认为这样本尚未构成这批产品非优的有力证据; 
你产品质量一贯不好时，我认为这同一样本尚未构成这批产品为 
优的有力证据.出发点不同，并无矛盾可言. 

最后，对于检验问题3 °， J 〜而: d ^ do ，直观上看合 

理的检验规则 是：当 (9 的估计值 X 离知较远时，否定，不然就 
接受即 

少 "：当 - 0 ol < C 时接受不然就否定 (2.12) 
选择 C ，使检验少"有指定的水平 or . 这等于要求 

= P ， o (| X -0 o )|< C ) 

= ^( V ^ C / a ) - < P (- T ~ nC / a ) 

— - 1 

即 / a ) = 1 - a /2, 这导出 / TiC/cr 二 w a/2 或 

C - < m an JJ~n (2.13) 

(2.12) 与 （2.13) 结合， 决定了 中〃. 

可以证明（见附录 A ): 检验少和少/分别是检验问题 1。，2。 的 
水平 a 的一致最优检验.而 少〃 则不然，它不是检验问题 3° 的水平 
« 一致最优检验.更有甚者，可以证 明：检 验问题3°的一致最优检 
验根本不存在.直观上这一点不难解释 ：问题 1。，2。 是所谓“单侧” 
的，即对立假设和原假设各据一侧，这时，检验法则只须照顾一头. 
而检验问题3°是所谓“双侧”的，即对立假设分据原假设的两边， 



它迫使检验法则采取一种折衷的形态，这就损宵 r 其最优性. 

以上我们详尽地讨论了检 验问题 r 一 3 °当方差已知的情况， 
在实用上方差一般未知.我们之所以对这-情况作仔细讨论，足因 
为这个场合足够简单，使我们有可能借此对一些重要概念作出清 
楚的解释，以便举一反三.现在转到第：个情况的讨论. 

2 . 方差 CT 2 未知时 

仍以问题 r 为例.这时，从股则上#，制定检验 0 ( 见 （2.1) 
式）的想法仍适用，但困难在 于：由 （2.3) 所决定的常数 r 依赖于 
未知参数 a , 无法确定.这就需要在上述想法的基础上作一定的修 
改，如本节开始处所曾提到的. 

把由 （2.1) 和 (2.3) 决定的检验中改写成等价 形式： 

- d 0 )/a u a 时接受 H 0 , 不然就否定 

这里^未知，我们可考虑用其估计值 S 代替，其中 S 2 = t (\ - 
— 1 - 1 
X) 2 /(n - 1) 为样本方差•但在用 S 代替 a 后，分布也起了 变化： 

由正态分布变为自由度》 - 1的？分布（当 <9 =知时，见第二章 

(4.34) 式），因而常数〜也要相应改为~经过这一修改， 

得到 检验： 

少••当 - 6 0 )/ S ^~ t n - x ( a ) 时接受仏，不然就 否定叫 

(2.14) 

其水平为要证明这一点，就得考虑检验0的功效函数 

〜( d ， a ) 二 Pe 7 a (^ n(~X - 6 {) ) /S < - t n - X ( a )) (2.15) 
可以证明 ：这个 函数只依赖于 S = (0 - %)/ a ， 它是 S 的下降函 
数，且当 S 二0即 6 - do 时其值为 a • 这最后-条容易证明：因为当 

6 二〜 时屬计量/^又-^仏〜〜^第二章“^试^再根据 
tn - 1 的密度函数关于0对称及记号 1 (a ) 的意义，即有 

— (X - d {) )/S > t u - \ ( a )) — a 

利用馬 （ Icr ) 是 3=(0- 的下降函数知，当 6>6 {) 时即当 
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S >0 时 (6 ， 〜 ( 0。， (T ) = a ， 这证明 r 检验 4 有水平 a . 关于 
~(心 tr) 只依赖于 且是占的下降函数的证明，见附录 B. 

类似的论据给出检验问题2°和3°的水平 a 检验，分别 记为〆 
和 0" : 

- d 0 )/S^t n . l (a) 时接受 H 0 ，不然就否定 iT 0 

(2.16) 

当 I /n(X^d 0 )/S\ 〗（《/2)时接受 i^， 

不然就否定 f/l (2.17) 
这三个检验统称为？检验’，是应用上最重要的检验之一.由于 (7 
未知，这些检验的性质也就较为复杂.例如，不论你怎么指定一个 
&<%，无法找到一个样本大小〃，使当 d < d ' 时，检验4接受 

的概率，不超过充分小的0>0(见附录3)，而在 a 已知 
时这是可以做到的，又如在 a 已知时，单侧检验中 和眇都 是一致 
最优的，但 cr 未知时，除非捡验水平 a >\/2 a 检验0和〆都不是 
一致最优. 

例 2.1 两厂生产同一产品，其质量指标假定都服从正态分 
布，标准规格为均值等于120 •现 从甲厂抽出5件产品，测得其指 
标值为 


119,120,119.2,119.7,119.6 

从乙厂也抽出5件产品，测得其指标值为 

110.5,106.3,122.2,113.8,117.2 

要根据这些数据去判断该两厂产品是否符合预定规格 120 . 

这可以提为假设检验问题/9二120： 0 tM 2 O , 方差 cr 2 未知，对 
甲厂数据，算出 X = 119.5，S = 0.4, 取 a = 0.05, 查表得 — 1 ( a / 
2) = r 4 (0.025)=2.776 .有 


x 史确 切件， （2■ 15) 和 （2.16) 称为“ . .样本单侧，检验（.一样本丧示只有一组样本 
入 ] ，…，: VJ ,(2.17) 称为“一样本双侧/检验”.有时也把5已知时的检验少，①'和少"称 
为检验”，但不如 z 检验的名称用得广. 
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/"?? I X - i /S = /5 I 119.5 - 120| /0.4 - 二 2.795 > 2.776 
对乙厂数据，算出 X = 114， S = 6 . 105 ，而 

I X - I /s - /5 I 114 - 120 I /6.105 = 2.198 < 2.776 
故按 0.05 的水平，结论 是：甲 厂产品与规格不符，但未发现乙厂产 
品不符合规格的有力证据. 

这个结论可能使不少人感到难以接受.因为甲厂5件产品都 
与标准值120相差很少，反倒认为不合 规格； 而乙厂5件中除一件 
外，都比规格值120低不少，反倒认为可以通过.这是为什么？ 

我们说，问题不能这么简单地看. 

a . 首先，我们注意到，甲厂的 S -0.4 远低于乙厂的 S = 
6 . K ) 5,这表明，甲厂产品规格比乙厂稳定得多. 

b . 也正因为甲厂产品规格很齐整（误差很小），所以，与标准值 
120的挂微差别（此处 X = 〗19.5 比120只差 0,5) 也被检出来了. 
不能不承 认：甲 厂产品的平均规格，有很大可能略低于标准值 
120.虽只略低些，也是事实，不能委之于随机误差.至于这样一个 
盖别的实际重要性如何，那要另当别论了，此处只讲统计上的显著 
性 即差异不能用随机误差解释，统计上显著的差异不-定有 
现实重要性. 

C. 乙厂抽出的几件产品的指标大多远低于标准值120,使我 
们很有理由怀疑，该厂产品平均规格达不到 120. 但是，由于该厂 
产品质量波动太大，所测得的数据尚不能很有把握认为，其平均规 
格确与120有差距，而非随机性影响所致，就是说，现有数据可能 
太少了些. 

所以，对乙丨我们首先认为：其产品质量波动太大应当改进 
至于其平均规格是否与120有差距的问题，可以再补充一些数据 
再检定，最好是先能采取措施把方差缩小些再决定这个问题. 

5.2.2 两个正态总体均值差的检验 

设 x [ ，…，是从正态总体 ( 心， a 2 ) 中抽出的样本 ， y t , 
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• * * , Y m 是从正态总体 i"V ( 心 ， <7 2 ) 中抽出的样本. , 0 2 都未知，(7 2 

可以是已知或未知.注意两总体有同一方差 
给定常数知，所要考虑的捡验问 题是： 

r h (、•• d 1 - d 2 >do ， h ^: dr d 2 < d ( 、 

2 。 H 0 ： d l ~d 2 < : d {} M, / ： d } -d 2 >d 0 

3 。 Hi : 6 二 〜 ’ H"!: 8 2 ^6 0 

在应用上常见的情况是 a 2 未知，而 0 o = O . 

所有概念上的讨论与前一段没有本质差异.先说 a 2 已知的情 
形.以 X 和 V 分别记 X 样本和 Y 样本的均值，则 U 为心-6 2 

的估计.于是对问题 r 而言，一个合适的检验是当 x - T > c 时 
接，不然就否定 •如何 根据给定的检验水平 a 去决定常数 
C ， 其过程与决定检验 （2.1) 中的 C 而得到 （2.3) — 样.所不同的 
是：这里 X - Y 的方差是 (1 /?Z + 1///2)(7 2 ,因而相应地，（2.3)式中 
的要改为 J nm /(n + w ). 这样得到 C ~ 6 0 - ou a 

y~(?i + m . 如果引进统计量 


U 二 



nm 

n + m 


(X — Y ~ 6q) /<j 


(2.18) 


则 r 的一个水平 a 检验为 

只••当 U >- u a 时接受 H 0 , 不然就否定 H () 

类似地，问题2°，3°的水平 a 检验为 

当 U < u a 时接受 f /； j ， 不然就否定 Ho 
茗 "：当 I l /|< w a/2 时接受不然就否定 

对^未知的情况，处理也与前-段一样，即通过样本对之进行估 
计，以估计值代替 a 2 . 这 M 有两组样本可用于估计 a 2 , 将其综合， 
得出较好的估计值 


S 


y 


1 


72 + — 2 


n m 


as 代替 u 中的 a ，得检验统计量 


T 二 



nm 

n + m 


(x - y - e 0 )/s 


(2.19) 
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按第」草 (4.36) 式，当 h - d 2 - d {) Hi , T 服从山度为”十 - 2 

的， ⑽ t ," 川 2 .基于7\作出在,未知时，检验问题 1°— 3°的 
水、卜 a 检验 / z ， A 和 / i ，分别为 

A； >r i D - 2 ( a ) 时接受 不然就否定 (2.20) 

//:、 1 彳 T ^ t tl + m _ 2 ( a ) 时接受 H 。， 不然就否定 (2.21) 

//': 岿 I t n , w . Aa /2 ) 时接受不然就否定 

( 2 . 22 ) 

这-:个检验 A ， /z ,// 都 称为“两样本 Z 检验”， A 和/? 是单侧 
的而 A "是双侧的.它们都属于应用上重要的检验.问题提法中有 
-个不大自然的条件——两总体有同-方差，不作这一假定就无 
法使用 f 分布.这是一个为了迁就数学上的简单化而对实用背景 
有所损失的例子.所幸的 是：只 要两总体方差之比与1相差不太 
大，则经验表明，使用 f 检验是可以令人满意的. 

例 2.2 甲、乙两厂生产同一种产品，其质量指标假定分别服 
从正态分布 m %， 〆 ） 和现从该两厂分别抽出若干件 
产品测得其指标值： 

甲厂 ： 2.74,2.75,2,72,2_69( A 、，...， X 4 ) 

乙厂：2.75, 2. 78, 2. 74, 2. 76, 2.72( Y ! ，…， Y 5 ) 

要通过这呰数据来检验这两厂产品质量何者为优. 

在这种问题中，你可以用估计的方法去 处理： 甲厂样本平均 
X = 2. 725,乙厂样本平均 T = 2.75,因 Y > X ，从所抽样本看乙厂 
较优.但这还不甚令人信服，因为这个差距也可以是因为抽样的随 
机性而来，不一定反映本质. 

也可以用区间估计的方法来处理这个问题，算出二 
一 0.025， 

s 2 =[i(x, -x) 2 + y ； (y, - y) 2 ]/(4 + 5-2) 

/-I j -i 

= 0.00058571， S 二 0.0242 

7 / =4 ,m =5 .取置信系数 0.95, 查表得 z 7 (0.025)=2. 365.用第四 
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章 (4.6) 式得 A -心 的区间估计为 

— 0.025 ± 0.0242 x 2.365 /^5 = [- 0.063,0.013] 
这个区间既包含大于0的值也包含小于0的值，表示 ^>^2，^!- 
^和 0 { <0 2 三种情况都有可能.区间整个偏向于负轴一边，显示 

情况略有利于乙厂.但最大差距也只达到0 . 063 .如果这^么大小的 
差距并无实际重要性，则可以说，区间估计的结果显示了两厂产品 
的质量水平大体相当. 

如果要用假设检验来处理这个问题，则结果取决于原假设的 
提法，而这要参考问题的背景.例如，若以往的记录表 明：甲 厂产品 
质量一般或经常优于乙厂，现在我们想通过实测检验一下目前情 
况如何.这时，我们取 Hold ,- d 2 >0 为原假设.这个取法，配之以 
较低的检验水平，保证了必须有很强的证据才能否定——即改 
变对现状的看法.这是因为，这个现状，即已经 历了一 段时期 
的考验，除非实测结果表现出很不利于它，人们还是倾向于把数据 
中表现出来的 f 利于它的差异委之于随机性. 

按〜 = 0， X - T = -0.025 ，S 二 0.024,算出 （2.19) 式的统计 
量丫 之值为- 1.540. 查表得 0(0.05) = 1.895. 因为—1.540> 
- 1.895,按 f 检验，应接受叫，即维持“甲厂产品质量优于乙厂” 
的看法■或者说，实测数据没有提供改变这个看法的有力 证据. 

如果我们一开始就釆用 Hq ： d x - (9 2 <0作为原假设，则所得 
数据当然也使它通过•这种表面上的矛盾已在前面解释过了. 

如果我们不涉及以往两厂产品质量上的表现，而单纯以“中 
立”的态度来对待这个比较问题，则合适的原假设是 Ho ：^-0 2 

二0,用所得数据检验的结果，仍接受 H () . 这个结论也与我们上文 
的分析一致. 

我们把上面的问题的提法作一点变化，借此解释一下显著性 
和显著性检验这两个概念. 

一工厂用一定工艺生产某种产品有相当时间.现有人提出对 
工艺作些更改以图改进产品质量.设在工艺改变前后产品质量指 
标的分布分别为~(化，^ ) 和 A / (心， a 2 ). 如果^ > &，就表示产 
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品质量确有改进.现要通过试验来决定此项工艺改变是否可取.为 
此，抽取工艺改变前后的产品各若干个以测定其质量.以 X ,, **, 
X ,,和 Yi ，…，分别记工艺改变前后的抽样测定数据. 

即便不从统计学方法的角度去考虑，人们也多半会采用如下 
的判据 ：计算 Y - x ，只有当 Y - x 达到或超过某个界限 c 时，才 
认为工艺改变后产品质量有“显著”提高因而值得采用.这个界限 
C 可以通过改变工艺所需费用与所得收益的分析去确定，但这种 
不涉及统计方法的分析有一点不足之处，即它没有考虑随机误差 
的影响.釆用假设检验的观点去分析这个问题，是克服这一不足之 
处的一个方法. 

按假设检验的观点，我们应当把 H () ： 6,^02 取为原假设.如 
以前多次讲过的，这个取法，辅之以较低的检验水平 a ，保证了它 
不会轻易被否定，必须有很强的证据才能使我们接受“工艺改变确 
能提高产品质量”的看法•按检验 A ( 见 (2. 20))，这只有在 

Y ~ X St n + m -2 ( « ) 7 (rt + tn ) / nm (2.23) 

时成立. 

当这种情况出现时——也就是说,原假设在水平 a 上 
被否定时,我们说 Y - x 达到了“显著性”，即差异如此显著，以至 
可以否定.以此之故，这一检验也就称为“站著性检验”. 

从统计学的观点看，达到显著性无非 是指： 在给定水平上，差 
异 （ x) 已不能仅由随机性来解释，而也有 e 2 > d { 的原因.统 

计上的显著性不一定意味着又很大.实际上，由 （2.23) 看出： 

若 m 很大，或 S 很小，则 X 只须略大于0就可以达到显 

著性.由此可见，是否达到显著性并非应否采取某种行动（在此为 

修改工艺）的唯一依据，还须结合其他方面的考虑，如前面所曾提 
到的. 

从某种意义上说，任何一个检验都可以理解为显著性检验 .但 
显著性检验这个名词最常用于有关某种效应或差异是否存在的那 
种问题，且我们主观上是希望该效应存在的.如在本例中，我们自 



然希望，工艺的修改确有助于产品质量的提高.这与例 2.2 那种种 
情况选择原假设时所依据的考虑不同.在这种情况，我们有理由倾 
向于相信原假设成立. 

所以，你可以简单地把“显著性检验”理解为“希望原假设被否 
定的那种检验”.显著性检验的特点不在于这检验自身，而在于其 
在使用中的含义如何. < 

5.2.3 正态分布方差的检验 

包括一个正态分布方差的检验和两个正态分布的方差之比的 
检验.和正态分布均值的检验相比，方差的检验在应用上较少一 
些，但也有一些应用.例如，一种仪器或一种测定方法的精度（指其 
内在误差，不是指由于没有调准而产生的偏离）是否达到某种界 
限，当一种产品的质量问题主要在于波动太大时，可能需要检验方 
差； 方差比检验可用于检验两个方差相等的假定（如在两样本 r 检 
验中）是否合理等. 

先考虑一个正态总体的情况.设，…，是从正态总体 iV 
(0，(7 2 )中抽出的样本 . a 2 未知，0可以已知或未知.以下只讨论0 
未知的情况 （0 已知的情况读者自己给出）.设4为给定的数.可 
以提出以下几个检验 问题： 

2° H\ y ,a 2 <.al ， H\^ 2 >al 

3。: a 2 = ao , H \ : a 2 ^ a \ 

先考虑广取 a 2 的估计 S 2 二 ~X) 2 /(n -1) .1。 的一 
个直观上合理的检验为 ： 

n 

%当2 X ) 2 > C 时接受，不然就否定 

/ 二 1 

(2.24) 

为定出 C ， 要计算 p 的功效函数.以记自由度为 n -1 
的卡方分布函数，则按第二章 (4. 33)，有 
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〜 D =Pe ia (i(X l ~X ) 2 < c) 

/ 二 1 


- X) 2 V < C/a 2 ) 

i = 1 

^ K n ^( C / a 2 ) (2.25) 

注意与均值 0 无关，且为 a 2 的下降函数.故只须找 C ， 使 
/ C „ 这得出 

C — cro^«-i 0 - a ) (2.26) 

(2.24) 和 (2.26) 结合定出了问题 T 的检验&类似地，得岀问题2° 
的检验 〆 和问题3°的检验 〆 '，分别为 

时接受 iT 。， 不然就否定 Ho 

卜1 


(2.27) 

不然就否定 (2.28) 
例如，取样本大小72 =30，《 = 0.05.查表得 

XI 9 (0.025) =45.722,^29(0.05) = 42.557 

^59(0.975) = 16.046 
取水平 a 二0.05,检验 〆 要求在 

S 2 < ^(42.557)/29 - \ A 61 ai 

时，接受 < r 2 <^ 之假设.就是说，在方差估计值 S 2 大约为 d 的 

1.5 倍时，仍得接受方差如果是双侧检验/，则差距更大，它 
要求在 

0.533^5 <S 2 < 1.577^ 

时接受 Hl ： a 2 = al 上述不等式之上界约为下界之三倍，这 说明： 
直至像30这么大小的样本，方差检验仍甚不可靠(许多远离 ag 之 
值仍能被接受为等于即犯第二类错误的概率会甚大）. 

现考虑两个正态总体的情况，设和，…，分 



2( X , ~ X ) 2 < ) 时接受 
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别是从正态总体 NWbCri ) 和 化， 中抽出的样本，可提出以 
下几个检验 问题： 

1 。 Ho ： a\/ai^a ,U x ^a\/a\<a 

2 。 Ho : a\ /aKa,H \： a\/al>a 

3。 H 0 : a 2 { / al^a 

a 为给定的数.事实上， 2° 可转化为1°，只须掉换4和4的位置 
即可.故只须考虑1°和 3°. 

考虑 r. 以 Sf 和 S〗 分别记X样本和 Y 样本的样本方差.则 
Sj/S! 为 aj/a 2 2 的一个估计值.故问题1°的一个直观上合理的检 
验为 

心当 C 时接受 H 。, 不然就否定 (2.29) 
其功效函数为 

Hp(A，d 2 ，a U (7 2 ) ^ Po^e r a.,oS s l /S 2 < C) 

1 Z I 

=\^4¥' / i si< i c ) 

— ^n-\,m-\ C (5"2^/<7] ) 

此处（^-^-“:^是自由度为彳?？ - 1， m -1) 的 F 分布函数（见 

第二章 (4.35)) .此函数是 ai 的下降函数.故只须决定 C, 使 
G„ -i, rn -i(C/a) ^ a 即可.由此得 

C = aF n - {fln -i(l - a) = a/F rn - Un ^i(a) (2.30) 
最后一 '式见 第二章习题. 

类似地导出检验问题3°的一个检验 为：当 C!<S?/Si<C 2 
时接受原假设％，不然就否定 f^， 其中 

Cl = a/F m ^ Un ^ x (a/2) ,C 2 = aF n - Um ^(a/2) 
a 为检验的水平. 

5.2.4 指数分布参数的检验 

指数分布的密度函数是第二章 （1.20) 式，分布函数则是该章 
(1.21) 式.它是一个单参数分布族-只包含一个参数 A . 这个分 
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布的重要性在 于：如 我们曾指出的，它描述了在一定条件下元件等 
的寿命分布，因此在可靠性分析中是一个基础性的分布，有不少的 
应用. 

现设 Xh …， X ,是从这总体中抽出的样本.在实际应用中，这 
可以是〃个抽来供试验的元件，从开始试验起到失效为止，各元 
件经历的时间，要根据这些数据检验以下这些假设 ( A a 给定） ： 

1° H {) : A ： A ^ Aq 

2 。 Ho : A^Aq , H \: A > A 。 

3 H ()i X = Xo, H [ i A z ^ z A o 

我们已经 知道: X 是 1/ A 的无偏估计.当 H () 成立时， X 应倾 
向于取较小的值.于是，问题 r 的一个直观上合理的检验为 

…当 X < C 时接受 Ho ，不然就否定 (2.31) 

这个检验的功效函数不难计算.因为当参数值为； I 时，有 

2A(A + …+ X n ) — 2nXX — - 

因此 

^( A ) - P A (X > C ) - P x {2nXX > 2nXC) 

=1 - K ln (2nXC) (2.32) 

这里 K 2 „( x ) 是的分布函数 ，~ U ) 为 A 的下降函数，故为使 
检验 p 有指定的水平 a ， 只须取 C ， 使 

~ 1 _ K 2 n ( 2 ? 2 XoC) - a 

这导致 2^(^ = ， 而 

C = xL(«)/(2nA 0 ) (2.33) 

若指定 心 < A G ， 而要求当时，接受原假设 Ho 的概率 
不超过给定的相当小的数/?，则由 &( A ) 为 A 的下降函数，知只须 
有 / VAtX — 沐即 

利用此式可用试算法结合查/分布表去决定 《 . 先取一个试探性 
的《代入上式左边.若计算结果小于^3,则〃取得太大.若大于 p ， 
则 W 取得太小.经过调整〃之值后再算. 
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类似地可得到检验问题2°和3°的水平 a 检验 〆 和 
^r^X^xLil - a)/(2nX 0 ) 时接受 ，不然就否定 

(2.32') 

〆 ':当 ； d"(l _ 量)/ ( 2 ” A 。） < X < %2 «(y )/(2 nA 0 ) 时接受 

仏，不然就否定 （2.33') 

可以证明（见附录 A ) 和 〆 都是相应假设的一致最优检验，而 

/则不是——问题3°没有一致最优检验. 

我们来看看问题 2°. 假设 Hu 可写为 

iT 0: 元件平均寿命 > l/Ao 

而检验 〆 可写为 ：“当 （1/^ M 1/ Ag )> Z L (1 - «)/2 ?? B 寸，接受 

W 0 ”. 这意思 是说： 只要观察的平均寿命1/又不小于设定的平均 

寿命 1/ A 0 的 ~a)/2n 倍，假设就可以接受.取《 = 
0.05 =15,查表得 

^2,(1 - cc)/2n - ^§ o (0.95)/30 = 18.493/30 - 0.6184 

即，只要观察到的平均寿命能达到设定值的约62%，就可接受“平 
均寿命不小于的假设.这看来不大能为人接受，其解 释是： 
一则我们选择了较小的水平 a (要求不轻易否定 i ^)， 一则样本大 
小15太小了些.对前者，若将《上升为0.3,则相应的界限约为1/ 
A CI 的85%.对后者，若仍维持 a =0.05,但取 n = 100,将得出相应 

的界限约为 1/ A 0 的84%，这已算比较合理了， 

因此，在解释假设检验的结果时，切不能单纯只注意到是接受 
还是否定.接受是在什么条件下，否定又是在什么情况下，其含义 
如何，有哪些因素起作用，都须进行估量，这样才能得出切合实际 
的看法. 

截尾寿命检验 

直接将前述检验用于元件寿命检验，在实施上有一个不便之 
处：拿 n 个元件同时开始使用，到其全部失效时试验才能停住.这 
n 个元件中难免有少数几个寿命特长的.这么一来,就必须等待很 
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1 C 的时间才能结束试验，为免除这个不便，在实际工作中常采用所 
谓截尾法.下面我们把这个方法的实施步骤介绍-下，其中涉及的 
分布问题就不能在此细讲了. 

1. 定数截尾法 

取个元件做试验.定下一个自然数 r < 〃，试验迸行到有 r 
个元件失效时为止.把到此时为止，全部〃个元件的工作时间加 
起来记为: T , 即 

了二 a + … K + (?? - r ) Y r (2.34) 

这里 h 是最先失效的那个元件的失效时刻（从时刻0开始算 
起），为第二失效的元件的失效时刻.以此类推，第 r 个失效元 
件在时刻 K ， 试验也就到此为止，余下尚有 n — r 个未失效元件， 
它们已工作的总时间为 （n - r ) . 这样得到7,的表达式 (2. 34 ). 

不难 理解： r 愈大，就愈使我们相信元件的平均寿命大.因此，比 
如说，问题2°的一个合理检验为 

…当 T > C 时接受原假设，不然就否定 （2.35) 

可以证明^ :当参 数值为 A 时， 2 AT r . 由此出发，仿前面的推 
理，就不难在给定检验水平 a 之下定出 （2.35) 中的 C 为 

C 二 xlM - a )/(2 A 0 ) 

例如，要检验某种元件平均寿命不小于5000小时这个原假 
设.这相当于问题2°，并且乜 = 1/5000.取15个元件做试验，预定 

到第5个失效时，试验停止■于是” = 15, r = 5.设前5个失效元件 
的工作时间依次是 

800,1200,1500,2000 ， 2200(小时） 

则 T = 800 + 1200 + 1500 + 2000 + 2200 + 10 x 2200 = 27500 a - 
0.05,查表得 

C 二 % jo (0.95) x 2500 = 3.940 X 2500 = 9850 
因为27500>9850,应接受原假设 A <1/5000. 


^见本章习题15 
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2. 定时截尾法 

指定一个时刻 To , 拿72个元件做试验，直到时刻 To 为止.把 
到这时为止全部 n 个元件的工作总时间加起来记为了，算法是： 
若某个元件在 To 之前的某个时刻 r 已失效，则该元件的工作时 
间为若到丁0时刻仍未失效，则该元件的工作时间为丁0,显 
然，平均寿命愈大，则愈倾向于取较大之值，于是得出 检验： 

，••当 r > C 时接受 Hu ， 不然就否定 H'o (2.36) 

可以证 明：近 似地有 2 a : t 〜 xL + i . 这里《是到时刻 n 停试时已 
失效的元件个数.由此出发，仿前面的推理，即可定出在给定水平 
a 时 C 的近似值（因 〜； tL + i 只是近似成立），为 

c = %2« + i(l - a )/(2 A 0 ) (2*37) 

例如，仍取 A G = l /5000， a 二 0.05, 取10个元件做试验，把 To 
定为 1000. 到时刻 To 时，已有5个元件失效，时刻分别为100, 
150,230,500和580,则 

: T = 100 + 150 + 230 + 500 + 580 + 5 x 1000 - 6560 
此处 w 二5,按 (2. 37)，有 

C 二 ^ ii (0.95) x 2500二 4.575 x 2500 - 11437.5 
因为6560< 11437.5 ，应否定原假设 

5.2.5 二项分布参数 p 的检验 

设某事件的概率为 p , p 未知.作〃次独立试验，每次观察该 
事件是否发生.以 X 记该事件发生的次数，则 X 服从二项分布 B 
U , /> ) .要根据 X 去检验以下一些 假设： 

1 。 H Q ： p^p 0 ,Hi ： p>p Q 

2° H 0 ： p > p 0 , H \： p < p {) 

y HI：P = PoM \： P ^ Po 


- 也可以更一般一些，对参试的 n 个元件的每一个规定不同的停试时刻7、，…， 
7；. 总工作时间 了计 算方法与上述 相同. 
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先考虑 1°. 从直观上看，一个显然的检验法为 

当 X < C 时接受邱)，不然就否定 Ho (2.38) 

因 X 只取整数值，故 C 可限于整数.此检验的功效函数为 

从 P) =P P (X >0 = 1- P,(X< C ) 

=1 - S (^ W '(1 ~ py - 1 (2.39) 

/-0 \ I ! 

据第二章习题7, & (/>) 为的增函数.故只须取匸，使~(如）二 
«，则检验^将有水平这相当于要选择整数 C ， 使 

Sf^Ud - Po )^ 1 = 1 - « (2.40) 

i =0 \ t / 

麻烦的是，不一定正好有一个整数 C 使 （2.40) 成立.较常见的情 
况是: 存在这样一个 C Q . 使 

Co C +1 

S ( . Wo(l _ Po) n ~ l < I - a < 2 [ n Wo(l *■ Pi)) n ~ l 

i -^0 \ i t :q \ i I 

(2.41) 

这时，我们只好取 C 为 C 0 或 C 0 + l . 当取 C 为 Co 时，相当于把 
水平 a 升高一些，即允许犯第一类错误的概率略大一点.当取 C 
为 0) + 1 时，则相当于把水平《降一点，只要^充分大，则 

^ o 0+1 (l - Po ) n ^ } 

这一项一般很小，这种修改也就很小，不会太影响实际.因为水平 
a 取为 0.05 或 0.01 等并无特殊含义，这样的修改也不产生原则 
问题. 

但是，在 n 不很大时，有可能 (2.41) 的左右两边都与1 有 
不可忽略的距离，这时如屈从一端，则对水平 a 的修改太大，可能 
对当事的一方不利.举例 如下： 

例 2.3 —工厂向商店供货，商店要求废品率不超过户二 
0.05 •经双方同意制定抽样方案 ：每批 （假定批量很大）抽„ = 24 
件，检查其中废品个数 X ，当 X < C 时，商店接受该批产品，否则 
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就拒收.双方约定检验水平为 a 二0.05,这意味着废品率为 0.05 
的批，有95%可通过检查（若多<0.05,通过的比率当然比 0.95 
更高）.问题是决定 C ， 按 （2. 40)，要找 C 使 

124 \ 

/ 2 ! . (0.05) I (0.95 ) 24 ^ i - 0.95 

/ — 0 V ^ / 

查二项分布表'知 

C - 2时 ， J = 0.884 ;C 二3时 ， J 二 0.970 
此两值都与约定的 0.95 有相当距离.若取 C = 2,对商店 有利； 取 
C ~3 则对工厂有利. 

照数字看，0_97与 0.95 距离较近，似以把 C 取为3较合理. 

但如商店不同意，一定要坚持 0.95 这个数，则只好按如下的方式 
处理： 

a . 当 X <2 时接受产品（接受假设户 <0.05) ，当 X >4 时拒收. 

b . 若 X = 3, 则既不完全接受也不完全拒绝，而按一定的概率接 
受.接受的概率是 

r = (0.95 - 0.884)/(0.97 — 0.884) = 0.767 
可以这样设想 ：拿一 个袋子，其中含白球767个，红球233个.每次 
抽样得出 X = 3时，即随机从袋子中抽出一个球，如为白球，产品 
通过： 否则就拒收. 

a ， b 二者结合就严格维持了 0.05 这个约定的水平.这样的检 
验叫做“随机化检验”，因为在 b 这个步骤中，包含了一个随机机制 
去决定原假设是否被接受.在所有涉及离散型分布的检验中，如要 
坚持约定的水平，往往得通过这样的随机化.但这种做法，一则累 
赘，二则对实用工作者而言往往觉得不自然.因此，除非确有必要， 
实用上不大采用.这里交代了以后，以下我们就不再提这个问题， 
继续把问题 r 看成一个产品抽样验收的问题，在实际使用 


* 钭 前固内 较仔细的二项分布表，以及其他几种常用统计表，包括正态分布，统计 
三大分布及波哇松分布等的表，是由全国统计方法应用标准化技术委员会制定的国家 
标准，统计分布数值表 Gm 086. 


• 238 • 





中，除规定 A ) 和水平 a 外，还要指定一个较如大一些的数力及 
充分小的数仏并要求检验能满足如下的条 件：若 ，则原假 
被接受的概率不超过，就是说，废品率不 小于九 的批，只 
有至多100^%的批能通过检验.在抽样验收中 ，一 般使用1 _ & 
( P ) 而不使用心 （ iO . l -~( p ) 称为检验 p 的操作特征函数或 
OC 函数，暂记为 L 9 ( p ). 有 

L 9 ( p )=±{ 7 %( l - p )- (2.42) 

；=0 \ I ! 

于是所提的要求可综合为 


L 9 { p 0 ) = 1 - a , L 9 { p x ) - ^ (2.43) 

如图 5.3 所示，为实现 (2. 43)，可能试着选一 
个心按 (2.40) 决定 C . 定出 C 后，把 p ^ p x I L ^ p) 

代人( 2 . 42 )算出.若[ 〆 〜）< 足则 
n 取得太大了.若取得太 1- 
小，经调整^值之后再重复上述试算.应用 
上，对一些特定的/?0,九和 a ，0值，把 w 和 ° 



P 、、 P\ 




C 的值造了表. 

产品抽样验收是二项分布参数问题的一 


图 5.3 


项重要应用，它已经发展成为数理统计学的一个应用分支，刚才所 
讲只是一种最简单的情况.实际应用中，为了对付各种情况——例 
如，每批产品个数不大，而需要用超几何分布代替二项 分布； -一次 
完成抽样可能不经济，而可以考虑多次完成，如复式抽样方案（见 
习题)及序贯抽样 方案； 产品也可以不单纯只看其是否合格，而要 
测定其指标值（数量验收方 案）； 验收可以是针对孤立的一些批，或 
是连续性的，因而可以考虑在何时放宽或加严检查，等等. 

检验问题2°，3°的处理方法类似.给定水平 a , 其检验分别为 

当入> C 时接受 H 0 , 不然就否定 （2.44) 
其中 C 由关系式 
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确定. 


p ": 当时接受不然就否定 Hi (2.45) 
其中 Ci ， C2 分别由关系式 

X] [ n W 0 (l - po) 71 ^ = a/2 

[ (2.46) 

S ( ?Z U(1 - Po) n ~ l = «/2 
i = c 2 +1 \ ? / J 

确定.可以证明 4 和 f 都是所给水平下的一致最优检验，而问题 

3°没有一致最优检验. 

符号检验 

符号检验的原始形态如 下：假 定有甲、乙两种牌号的同一产品 
(例如两种啤酒）.为了解大众的反映如何，挑 选了〃 个人，每人给 
以甲、乙两牌号的产品各一份，请他们使用后作出评定，规定 :若你 
认为甲优于乙，则给一个“ + ” 号； 若认为乙优于甲，则给一个“-” 
号.以记“认为甲比乙优”的人在整个大众（而不止限于挑出的 
这 n 个人）中所占比例，若户= 1 / 2 ,则甲、乙两种牌子谁也不占优 
势.为检验是否如此(检验原假设 p = 1 / 2 )， 看这〃 个人的回答中 
正号的个数 X . X 服从二项分布石（《，/ 0 .于是可以使用检验 
(2.45), C 1 , C 2 由 （2.46) 给岀，其中如=1/2.若 X < Q ，则判甲 
不如乙•若 X > C 2 , 则判乙不如甲.若，则认为在水平 
«上尚不足作出判断 —— 尽管在样本中+、-号个数有差别，但差 
别不够大，还不能认为它一定不是由抽样的随机性所引起. 

更进一步，在有些场合下，可以要求参试的人打分.如定下 
0 — 100 分的范围，可以要求每个参试者对甲、乙两牌号的产品各 
给一个分，如下表前两行所示. 


参试人 

1 

2 

V ■ « 

i 

… n 

评分 

o 

& 


4 « • 

x t 

… X 



y 2 

脅 * • 

Yi 

... y 

1 n 

甲一乙的符号 

+ 

— 

• « • 

一 

■ * * ■十 
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对这批数据可以考虑用 f 检验法 r 一是把 Xi ，…，和 Yi ，…，八 

分别看作从正态总体 N (9 i )和 A /(6^，^ 2 ) 中袖出的样本，用两 
样本？检验 (2.22) 去检验原假设 h 二七.这个做法的问题 在于: 
各人品味和打分尺度不同.品味较高的人也许倾向于把分给得低 
-些，反之则给得高一些.这不仅会破坏正态性，也会使方差 d 加 
大而降低检验的功效.另 一 种想法是取差 

Hr Y "! 二 1，"，” 

把 Z r 视为取自 iV (") 的样本作为 ( ^而 erf 可视 

为上文的 2 cr 2 . 或者，根本不必与上文的仏，0 2 和，发生联系）.而 
用一样本〖检验 (2.17) 去检验假设^ = 0.这个做法部分地弥补了 
前一做法的缺点,但仍有其问题 :各人 在差距如何以分数反映上尺 
度也可能不一，同是感觉上这一点差距，有人觉得用5分的相差就 
够了.而有人可能愿意用20分.这也会破坏上文正态性假设和使 
方差4增大. . 

现在看表上最后一行：足一 Y , 的符号.这就免除了前面所讲 
的可能的缺点，因为此处只要一个好坏对比的意见，而不问具体程 
度如何，这样就回到了符号检验. 

当然，符号检验也有其缺点，即它丢失了 x /: ， V ；这些数据中 
相当部分的信息，如果有把握认为参试人给分的尺度并无重大差 
別，用 Z 检验比用符号捡验很可能给出更高的分辨率.因此，要不 

要把分数转化为符号，这是一个要依据对实际背景的了解去考虑 
的问题. 

在符号检验中，我们对样本 ； Cy Y ; 所来自的总体的分布，不 
需有什么特殊的假定.这样的检验在数理统计学上称为“非参数检 
验”，意即它不是只适用于某种特定的参数分布族，如正态分布族 
或指数分布族之类.非参数方法是数量统计学中的一个重要分支. 

顺便说一句 ：符 号检验中那种回答问题的方式，是在民意测验 
中对某问题作二者取一的回答的那种方式（你是否赞同某项措施， 
两位候选人中你打算投谁的票之类）.在西方每值大选或总统选举 
之前，进行多次民意测验，每次挑选数百至数千（以至更多）的人进 
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行调查.历史 证明： 这种调查与事后的结果惊人地一致.不懂统计 
学的人对此可能觉得难以理 解：一 国人民多至千万以至以亿计，为 
什么区区数千人的意见与全体的意见相距如此之近，其实不难解 
释.以〃计调查人数，记某种特定回答（如准备投 A 的票）的人 

数，以川/"=》估计因”甚大，可以用第四章 （4.13) 式作户的 


区间估计，它大体上就是 
a = 0 . 05,则 


土 ^ ff / 2 v p(\ - p)/n . 如取” =2500, 


/ 4 /2 v 彡 （1 - p)/n ^1 .96 



2 


2 


2500 


1.96% ^ 2 % 


即用多估计户，大约只有土 2%的误差.如果一个候选人比另一个 
领先 5 个百分点，则在民意测验中就能有确定的反映了. 

5.2.6 波哇松分布参数 A 的检验 

设有一个取非负整数值的离散总体，其分布为包含未知参数 
A 的波哇松分布，如第二章 （1.7) 式所示.现设 X 为抽自该总体的 
样本*，要考虑以下的一些检验问题 (Ao>0 为给定常 数）： 

1 : A ， i 1 /! : A > Ao 

2 。 Ho ： A^A () ,H / 1 ： A<A () 

3 Ho i X = Ao , Hi ： A = Aq 

先考虑 1°. 由于 X 的均值为 A ，当 Hq 成立时， X 倾向于取较 
小之值，由此得岀下述直观上合理的 检验： 

当 X < C 时接受 Ho , 不然就否定 (2.47) 

其功效函数为 


0 


= 1 - P x (X < C ) - 1 - 2 e _ A AVz ! (2.48) 


o 


* 可以一 般地设 X lt --, X W 为抽自该总体中的样本，但只要取 x = X , +…+入„， 

则据第二章例 4.3 ,X 仍为波哇松分布，只参数改为，因此，只抽-个样本的限制并 
无损于 ，般性. 
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根据第二章习题10,& ( A ) 是 A 的增加函数•故为决定 C 使检验 P 
有给定的水平^只须取 C ， 使馬 （ A G ) = a ，即 

X ] e _ A (> A ' 0 / f ! = l-a (2.49) 

1 - 0 

这里也有我们在讲二项分布参数的检验问题时碰到的情况，即不 
一定存在整数 C 使 (2.49) 恰好成立，而是存在 C D ，使 

c (，()+1 

^ e ~ x oX l 0 / i \ < 1 - a < Xle -(2.50) 

这时，或者调整 a 之值，或者施行随机化（当 X = C 0 + 1时），步骤 
与以前讲的相同. • 

适合条件 (2.50) 时 Co 还可以由等式（第二章习题 10) 

C 0 f oo 

Se — A ( iA f 0 /7! = / c\dt (2.51) 


通过卡方分布表得出.事实上，在上式右端的积分中作变数代换 
t = jt /2, 得 



2 r+1 r!J2A 


( f ' x /2 x c/2 


0 


dx 


I w 上 L i — I 

二- 0 x e™' r/2 x 2 dx 

2(2f + 2)/2-p / ~r Z I v 2A () 

=1 - K 2 t + 2(2 Ao ) (2.52) 

此处 K 2 t +2 U ) 为自由度 2 c + 2 的卡方分布函数.由（2.49)， 
(2.51) 和 （2.52), 得 K 2r + 2 (2 A 0 )= a ，即 

2 Aq = X 2 c + i (^ ~ ci ) (2.53) 

然后查 X 2 表用试探法.先取定一个 C 值查表得出 Z ^ c + 2 (1 - a ). 
若此值小于 2 Ao ，则表示 C 取得太小，反之则太大，实际上，从表上 
“1- 那一列从上往下看就直接可以找到满足 （2.49) 或 （2.50) 
的 C . 例如，取 A G = l _752 ，a = 0.05, 则 2 A 0 = 3.504 .从 表中头 
上为1 =0.95 的那一列往下看，见到 

Xs(0.95) = 2.733,xio(0.95) - 3.940 
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故满足 （2.50) 的 C Q 为 Q 二3.这个方法的缺点是 ：它没 有给出 
(2.50) 左 、右两端之值.因而在 C D + 1处施行随机化时的概率（即 

例 2.3 中 0.767 这个数）算不出来（如果所用的 x 2 表的表头上恰 
有 “2 A 0 ” 这一栏 ，当 然就不成问题）. 

例 2.4 假定一指定地区内的人口中，每年患某种特殊疾病 
的人数服从波哇松分布，且过去相当长一段时间，平均每年发病人 
数为 2.3 人.但近4年内记录到的发病人数分别为3,4,1，5.问是 
否有明显证据表明发病率上升了？ 

从数字上看，发病率的上升甚为明显.从统计学的角度观察问 
题，就是要检验 一 下 这表面上的增加是否达到了在一定水平 a 之 
下的显著性，即不能仅从偶然波动的角度去解释 

为此，以 A <2.3 作为原假设，把4个年份的数字相加，得 X 
= 3+ 4十1 + 5= 13.要注意 X 的分布为参数是 4 A 的波哇松分布， 
因此据 X 去进行检验时，原假设要改为义<义 () 二4\2.3二9.2.取 
«二 0.05. 查表有 

%3 o (0.95) = 18.493 > 2 A 0 ，： d 8(( L 95) 二 16.928 < 2 A 0 

由此知应当在 X <13 时接受 A <9.2, X >15 时否定 （X 二 U 要施 
行随机化，或把〗4放到否定域内）.总之，按所得数据 X =13 尚不 
能否定“年平均发病人数未上升”之假设. 

若取 a =0.20, 则查表得 

^26(0.80) = 19.820 > 2 A 0 ,154(0.80) - 18.062 < 2 A 0 

相当于 (2.50) 式中的 C 0 二11，现 X = 13,该否定原假设 A <9,2. 

随着所取水平 a 的不同，在同一数据下一个假设的接受与否 
也可以不同，而水平的选择是人为的.由此可知，不能把检验的结 
果按其表面意义解释得太死.拿本例而言，如果你认为事态并非很 
严重，而采纳“发病人数增加”的结论将导致需要巨额经费的措施， 
你可以慎重一些而采取-个较低的水平，如 a = 0.05 .这时你的结 
论是：目前尚无十分有力的证据表明情况已恶化了，可再观察一段 
时间.但如你只是把这个问题作为一个单纯的科研题目，你也许会 
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倾向于认为不必过于保守，即宁取较大一点的水平，例如 a = 
0.20 .这时你的结论将是 ：已有 较充分的证据表明情况有了恶化， 
值得注意，采取这个看法犯错误的机会不超过 0.2 .这两种看法并 
无矛盾.恰恰相反，也许这两种看法的结合，使我们对本题中随机 
性的影响如何，得到了更深入一步的理解. 


对问题2°和3°,类似的讨论得到水平 a 的检验^/与/ 如下: 


当 C 时接受 iTo , 不然就否定 iT Q 

(2.54) 

其中 C 由关系式 

C— 1 




; — n 

)Ab A * ! = a 

(2.55) 

确定，或用 

1 - U 




2 A 0 : 

= X2c ( a ) 

(2.56) 


C !< X < C 2 时接受不然就否定 Hi (2.57) 

C ,, C 2 分别由 


C l- 1 C 2 

Se^oA^/t! =, = 1 - a/2 (2.58) 

^ — 0 i — (} 

确定，或用 

~ Xic^a/2) ,2Aq = Z 】 c 2 +2(1 _ a/2) (2.59) 

波哇松分布参数检验有一个有趣的应 -- _ 

用，即用于本节 （5.2.4) 中讲过的定时截尾 -- - -- 

寿命检验的情形.前面我们讲的定时截尾 - 1 ■ 

是预定一个时刻 T c ， 在时刻0时对 n 个 0 ^ 

元件（其寿命都服从参数为 A 的指数分 • 元件失效时刻 

布)进行测试，每个参试元件如在时刻： r G 图 5 4 

前失效，则记下其失效时刻而并不替换该 

元件.现在对试验作一点 修改： 开始时^个元件参试，不论在％ 
之前的哪个时刻其中哪个元件失效了，就立即用一个新的替换上 
去.到时刻时结束试验，把到那时为止失效的元件总数记为 
X . 如图 5. 4,表示在时刻0有3个元件参试，到时刻7\)结束，共 
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有入二 11 个元件失效. 

用第二章习题25容易 推出： X 服从参数 V 二 《 r 0 A 的波哇松 
分布.如要检验“元件平均寿命不小于 1/ A U ” 即 “ A < A G ”， 可归结为 
在波哇松总体中观察了 X ，要检验假设 “ v <« T n A Q ”.这正是我们 
讨论过的问题. 


5.2.7 大样本检验 

在上面讲的一些检验问题中，我们都知道了有关检验统计量 
的确切分布.据此，就可以在给定的检验水平 a 之下，决定检验统 
计量的临界值，即我们前面多次提到的常数 C (或，如在双 
侧情形）. 

但在不少问题中，检验统计量在直观上看合理，但其确切分布 
求不出.这时，往往就求助于其极限分布，依据它去决定临界值 C . 
举-个例子. 

例 2.5 (贝伦斯-费歇尔问题）设 X ! ，…，和 h ，…， y ,„ 
分别是抽自正态总体和 

全都未知，也没有假定 H 与 d 相等.要检验原假设“％ =心 "，对 
立假设是 关 6”. 也可以考虑单侧的情形，即为原假 
设. 


据正态分布的性质有 


( X - Y ) - { e x - e 2 ) 


2 


N(0,1) 


(2.60) 


\fa\/n + 

因为未知，虽则 (2.60) 为确切分布，仍无法据以确定检验的 
临界值.于是以 X 样本的样本方差 Sf 作为 d 的估计，以 y 样本 


的样本方差 珣作为 4的估计，分别取代 （2.60) 中的 W 和 a 〗 得 
到 



(X - V ) - (6 { - d 2 ) 
^ S\/n + Sj/m 


(2.61) 


其确切分布很复杂，但当 n , m 都较大时，其分布接近 N (0，1) .姑 
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且认为它就是 iV (0 ，1 ) ，则得到原假设 h = 0 2 的下述检验 法：当 

i X — Y \ jsj S\/n + S\ / rn < u a /2 (2.62) 

时接受原假设，不然就否定. 

大样本检验，例如 （2. 62)，在下述意义下是近似 的：原 先预定 
的检验水平是 a ，而该检验的实际水平与 a 有差距.这是由于 
(2.61) 式的了的分布与 N (0，1) 的分布有距离.如果 w 和 w 都较 
大，则 T 的分布与 N (0，1) 的差异就很小，而检验 (2.62) 的实际水 
平就与其预定水平 a 相差很小.问题在于，我们一般并不清楚对 
一定的《和的分布与; V (0，1) 的差异有多大，因而也就不能 
估计检验的实际水平与其名义水平究竟差多少.在区间估计中也 
有这个问题 ：由于 使用了有关变量的近似分布，所作出的区间估 
计，其实际置信系数与名义（预定的）置信系数之间，有一个我们不 
了解的差距. 

因此，大样本方法是一个“不得已而为之”的办法，只要有基于 
精确分布的方法(小样本方法），我们总是乐于采用的，可惜 的是: 
在数理统计学的许多问题中，能找出形式足够简单且便于使用的 
精确分布的情况，到底还是不多.因此，大样本方法在数理统计学 
中占有重要的地位. 

也有的情况，精确分布是知道的，但在样本大小《太大时，计 
算不便，我们也时常用其较简单的极限分布去取代之.下面是一个 
例子. 

例 2.6 再考虑 5.2.5 段讨论过的二项分布参数的检验 
问题.以该处的问题3°(原假设户=户0)为例，前面我们已找出检 
验 (2. 45)，其中 C lt C 2 由 （2.46) 决定.当 n 很大时， （2.46) 中的和 
无法从二项分布表上查得，因而 Ci , C 2 的决定就不易. 

但根据中心极根定理（第三章定理 4. 3)，当原假设二如成 

立而 n — oo 时 ，（X - np 0 )/ v / np 0 (l - p 0 ) 的分布趋向于 N (0, 
1) .近似地就把 N (0，1) 作为其分布，则可提出如下的检 验：当 

| (X - ? lpo ) I / y/^od - p 0 ) < u a/2 
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即 


? ip 0 - u a/2 y / >0(1 ^ x ^ npo + u a /2 VPo (^ - Po ) 

(2.63) 

时接受原假设 /> = Ai , 不然就拒绝.与 （2.45) 比较，这等于以 
(2.63)两端之值作为（： 1 和（； 2 的近似值.这两个值比 C , , C 2 W 
确切值（由 （2.46) 决定的）要容易计算得多. 

我们再提醒一下以前曾解释过的一件事 情：统 计方法的大小 
样本之分，不在于样本大小〃多大（这无清楚界线），而全看其是 
否使用有关变量的极限分布.拿本例而言，若用检验 （2. 63)，无论 
n 多小，总是大样本 方法； 若用检验 （2.45) 而 C U C 2 由 （2.46) 决 
定，则无论 n 多大，仍是小样本方法. 

5.2.8 贝叶斯方法 

贝叶斯方法的一般原则已经在 4.2 节 4.2.4 段中阐述过，并 
已曾用于点估计和区间估计问题.贝叶斯方法用于检验问题至为 
简单 :如已 经选定了先验分布，则在有了样本&，…，后，分别 
算出原假设的条件概率 PCHoIX ! ，…，和对立假设的 
条件概率 P ( H , |&，…，尤）.若前者大于后者，则接受原假设 
若后者大于前者，则否定原假设 Ho . 如果二者相等(都等于1/ 

2), 则可让其悬而不决（留待进一步考察），或随机地取其一，举例 
说明之. 

例 2.7 考虑第四章例2, 14, 但此处我们讨论有关6的检验 
问题. 

广设原假设对立假设私 ： 0>0,就该例给的先验 

分布 Nkj 2 )， 已求出后验分布为正态 ] V ( i ， 7 2 )，其中“ f 分别 
见第四章 (2.17) 和 (2.18) 式. 

当沒〜] V (/， ？ 2 ) 时，0<0的概率易算出，此处我们只关心它 
是否小于1/2•显然，若 r >0, 此概率小于1/2,若 f <0, 则大于1/ 
2.当（二0时则恰为 1/2. 因此，得出在所给先验分布之下的贝叶 
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斯检验为： 

当， < 0即 X < — "/ (抓 2 )时接受 H o : 0 <O 
4当 r > 0即 X >- ^ /( na 2 ) 时否定 H () 

、当？ = 0即 X =—///( no 2 ) 时，悬而不决 
从其中看出先验信息的影响.设 P >0, 则先验信息较有利于 H 1: 
0>0.所产生的后 果是： X 必须小于一个比0更小的数 -"/ 
( mr 2 )， 才能接受0<0,若无这一先验信息的“先人之见”，则公平 
的看法 是：当 X <0 时认为 6 < 0 的可能性较大，因而接受它.先验 
信息的存在使我们要求更强的证据.从其影响上看，与选择检验水 
平《有其相通之 处：我 们愈是相信原假设，就愈是倾向于选择较 
低的《，而使检验更有利于原假设.当然，这只是一个比喻,在贝叶 
斯方法中没有“检验水平”的概念，其方法的精神与奈曼-皮尔逊理 
论根本不同. 

2°若取原假设为 H r , d x < d < e 2 ( d u d 2 给定），则原则上完 
全一 样：在 0〜 / vu ，#) 时，算岀 d '<^ d 2 的概率为 

p(8 l ^e^d 2 \x l9 -,x n )= 

(2.64) 

我们留给读者去证明 ：这函 数作为 f 的函数，当 ？ 由-〜升至00 
时，先增后减.由此可知，使此表达式大于1/2的£是落在某区间 
U ， z 0 内（可以是空集）.相应地，又落在某区间 （ A ， B ) 内，即贝叶 
斯检验为： 

’ 当 A < X < S 时，接受原假设/ <0 2 
^当 X < A 或 X > B 时，否定 H q 
、当 X 二 A 或 B 时，悬而不决 

(2.65) 

用非贝叶斯方法，即奈曼-皮尔逊的方法，也可以得到形式一 
样的检验，但临界值不同，这留作为一个习题. 

3°最后考虑检验问题:0 = 0, f / i : <9^(). 
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因为后验分布为正态， 6 取一个值0的后验概率为 0： P ( H 0 
A ，…， X „) 总为0.故依贝叶斯检验，不论样本如何，总要否定 
H 0 - 

这样的解看来很不吸引人.这里面就有些思想得弄清楚. 

首先，就贝叶斯方法而言，它只看后验概率的大小 .0 这个值 
的先验概率为0,即根本不可能之事，就是说，先天地已知道二 
0”不可能，还有什么值得去检验的. 

问题就出在这个“绝对”上.如果你要检验某个物件的重量“绝 
对地”等于2 . 567959克，我说你不必检验，世间找不出其重量与 
2.567959 克一丝不差的物体.在这个意义上，你可以不经检验否 
定 6= 6 0 这种假设，可是在实用中，人们并不这么绝对的看问题. 
当人们检验 d 二 d 。 这假设时，他是理解 为：所 检验的其实是 ：沒在 
外附近一个可允许的限度内，且只要样本中包含的证据不与这一 

点相去太远，就可考虑接受.这是我们日常处理这种问题的看法. 
我们以前讲过的，以奈曼-皮尔逊思想为基础的检验法，很好地体 
现了这一'点. 

在此，如一定要用贝叶斯方法来检验0 = 0这个假设，就必须 
给0这个点以一正的先验概率/>0.剩下的1-如的概率以某种方 
式分布在 M 的范围内，例如按正态分布.此处不涉及细节，有 
兴趣的读者可参看陈希孺、倪国熙合著的《数理统计学教程》 p . 204 
例 5.8 .大家可能觉得:如这个值毫无定准，如何给法？在并无确 
实的先验信息可依时，只好凭考虑两类错误的后果去 选择: 如果你 
认为错误地否定0 = 0后果较严重，你可以选择一个略大的，以 
使“0 = 0”难于被否定一些.这与在奈曼-皮尔逊方法中选择检验 
水平 a 有同一效应——须知，水平 a 的选定也并无理论依据，而 
是基于实际考虑. 此处如 的选择，不妨也作如是观. 

贝叶斯方法的最大的好 处是： 一经选定了先验分布，则剩下的 
只是计算问题，而没有找检验统计量的问题，特别是没有找检验统 
计量的精确分布的问题，看一个例子. 
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例 2.8 设&，…，X,为抽自正态总体 iVWj 2 ) 的样本』和 
a 都未知，考虑检验问题 

H 0 -.a<d<b ， H r ,d < a 或 d> b- (2.66) 

其中 a 都是给定的有限常数，& <6. 

在本节 （5.2.1) 段中，我们曾讨论过 d ^8 0 ^^ d 0 和0=办等 
原假设的检验问题，但就是没有提到过 (2. 66)，其实这个问题在应 
用上也有其重要性.原因就在于 ：用非 贝叶斯的方法，这个检验所 
涉及的分布问题不易解决. 

现用贝叶斯法，给6以广义先验密度1，给 <7以广义先验密度 
<r M ， 并设二者独立.这等于说给（0， a) 以广义先验密度厂 1 ，当 
-oo<^<oo ?ff >0. 由第四章 （2.10) 和 （2.11) 式，得知在有了样 
本X!，…，总时（彡， a) 的后验密度为 

C n a~ (n+l) exp - d) 2 (-oo<0<oo ?a >o) 

L 2(7 ; = i 」 

(2.67) 

这里 


( ，oo「oo r 1 i \ 

ct —(” + 1 )exp — zr~2 v (X - 0) 2 ddda ) _1 

C„ 是一个与0，^无关但与样本有关的常数，以下的常数 D„,E„ 

等也如此，它们没有必要去计算.将 （2.67) 对 a 从0到沉积分，得 
到0的边缘后验密度，为 

C n rcj ^ nn ) exp \ ~ - d) 2 ]da 

J o l la / = 1 J 

二 n n ( E ( x t - - e ) 2 Y n/2 - D„(sg+ nOl - d ) 2 )— n/1 
/ = 1 

二 D„S 0 ~ n [l + MX - 0) 2 / S 2 o ] - n/2 
二 E n [l + n ( X - d) 2 /(n - 1)S 2 ] (2.68) 

其中 S 高为 X) (X - X) 2 ，SP(7z - 1)S 2 ，S 2 为样本方差.都 

i = l 

与无关.令 
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d " = V 7 i (6 — X)/S (2.69) 

它是 0 的线性函数.由0有密度 (2. 68)，易算出 f 有密度函数 

F n (^\ + ^ (2.70) 

把这个表达式和第二章 （4.31) 式比较，即知它是自由度为72 - 1 


的 r 分布密度，因而常数就必然是 )/ 



以 TfdE 自由度》 - 1的 z 分布函数，用(2.69)，（2.70)，即得 
^(Hoh ，…， 尤）二 P ( a ^6^ b \ x { j -, X n ) 


= PUn(a - X )/ S<f dn{b ~ X)/S | X 2 ,-,Xj 



T 


n 



看它是否大于1/2,即决定是否接受原假设 H q . 

例如，取原假设为- ，样本大小 n = 16,且设由样本算 

出 X = 0.8 ，S = 2 .则 


^fn {b - X)/S —4(1 - 0.8)/2 = 0.4 
(a - X)/S —4( - 1 - 0.8)/2 ~ - 3.6 

因而 

P (- 1 ^ (9 ^ 1 [ X !，***, X „) - T 15 (0.4) - T 15 (- 3.6) 

查，分布表知上式右边为 0.621119 - 0.086245 = 0.537874 > 
1/2.故应当接受原假设. 

有意思的是看 (2.69) 式的 f ，若回到非贝叶斯的看法，即把 
X ， S 看作是随机的而<9为未知常数，则如第二章 (4.34) 所示， 

的分布为自由度 77 ~ \ m t 分布 4-! .刚才我们又证 明了： 在所给 
的（广义）先验密度之下的后验分布是~ ，殊途而同归，但解 
释截然不同.在非贝叶斯意义下得到的 <9* 助于解决此处 

的检验问题，而在贝叶斯方法之下，由的后验分布为立即 
导致检验问题的解. 

顺便交代一下：30年代初， R . A . 费歇尔从非贝叶斯的结果 
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^ Jn(X - d)/S - t n . x (2.71) 

出发，用如下的推理 ：在上 式中把 x ， s 看作已知常数而将 0 看成 
是随机的，则 （2.71) 式可看作决定了 0的一个分布，他称之为9的 
信仰分布 (fiducial distribution ) .其解释如下：在抽样前，我 们对沒 
茫然无所知.有了样本后，仍不能确切地定出心但根据样本所提 
供的信息，我们对0取各种值的“信仰程度”有了不同 ：例如 ，我们 
相信0取 X 附近值的程度，比相信6取远离 X 的值的程度要大 
些.信仰分布从数量上刻画了这个相信程度.若以 F 记0的信仰 
分布，则 F ( b )~ FU ) 就是我们对落在区间 U ，6 ) 内”的信仰 
概率 (fiducial probability ). 利用这个就可以进行统计推断 作 

区间估计，检验等，这个方法在数理统计学中称为信仰推断法 
(fiducial inference ). 

费歇尔的思想与贝叶斯学派的基本思想有共同之处，即都是 
把未知参数视为随机变量，可以谈论其概率分布 .二 者不同之处在 
于贝叶斯学派要求先验分布而费歇尔不要求.贝叶斯方法中的后 
验分布与费歇尔的信仰分布可以作等量观，但是，在贝叶斯方法 
中，由先验分布到后验分布有一定的规则遵循，即求条件分布的规 
则.因此 ，一 旦先验分布指定了，后验分布并无岐义.费歇尔的信仰 
分布则不然，它虽不依赖什么先验分布，但不仅无一定的法则可遵 
循，且在较复杂的场合，简直不知从何着手.正是由于这个原因，信 
仰推断的方法没有能推开来，与频率学派和贝叶斯学派鼎足而三. 
但是，这方法在有些情况下有其应用，特别是在我们多次提到过的 
贝伦斯一费歇尔问题中，此方法颇为成功（参看前引陈希孺、倪国 
熙书 P . 182—183), §前仍有些学者对它进行研究. 

再回过头说说贝叶斯检验.上面提到的那个准则，即在 P ( H 0 
，…，>1/2时接受原假设，并非一成不变的.在实际问题 
中，不论接受或是否定 H G ， 往往都意味着一种可能带来经济上或 
其他方面后果的行动.由于后果的严重性不同及当事者的承受力 
不同，他在作出决定时所采用的“临界概率”就不一定是1/2,可以 
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大一些或小一些.举例言之 ：接受 表示兴办某一商业活动.这 
活动一旦成功，大有利可图，但也很可能失败而招致一定的经济损 
失.--个有实力能承担这样的风险且又富于冒险精神的实业家，可 
能决定只要在30%的成功机会就准备一试，这时他把接受的 
标准定为，…，\)>0.3.反之 ，一 个实力不强且较稳健 
的人，也许会要求有八成把握才干.这已不单纯是统计推断问题， 
而是一种统计决策问题，其特点是不仅要考虑到样本提供的信息， 
还须考虑到种种决定可能带来的后果' 

5.3 拟合优度检验 

拟合优度检验是为检验观察到的一批数据是否与某种理论分 
布符合•例如，我们考察某一产品的质量指标而打算采用正态分布 
模型，或考察一种元件的寿命而打算釆用指数分布模型，可能事先 
有一些理论或经验上的根据.但这究竟是否可行？有时就需要通 
过样本进行检验.例如，抽取若干个产品测定其质量指标，得， 
… ，尤 .然后依据它们以决定“总体分布是正态分布”这样的假设 
能否被接受.又如，有人制造了一个散子，他声称是均匀的，即出现 
各面的概率都是1/6,是否如此？单审视骰子外形恐还不足以下 
判断，于是把骰子投掷若干次，记下其出现1点，2点，…，6点的次 
数，去检验这结果与“各面概率都是1/6”的说法能否符合. 

拟合优度检验在应用上很重要•除直接用于分布拟合外，列联 
表（见下文 5.3.3 段）也是一项重要应用.另外，这个问题在数理统 
计学发展史上占有一定的地位.其历史情况是这样的 ：统计 分析方 
法在19世纪时多用于分析生物数据，那时曾流行一种看法认为正 
态分布普遍地适合于这类数据.到上世纪末， K . 皮尔逊对此提出 
问题，他指出有些数据有显著的偏态，不适于用正态模型.他于是 


* 关于统计推断与统计决策的异同的论述，可参看前面所引陈希孺与倪国熙合著 
的书 pp . 222—225. 
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提出了一个包罗甚广的，日后以他的名字命名的分布族，其中包含 
正态分布，但也有很多偏态的.皮尔逊认为：第一步工作是根据数 
据去从这一大族分布中挑选一个最能反映所得数据性态的分 
布 '第二 步就是要检验所得数据与这个分布的拟合如何，这一步 
就是似合优度检验.他为此引进了著名的“卡方检验法”（以后写为 

: f 2 检验法 ）.20 年代， R . A . 费歇尔对 X 2 检验法作出了重要贡 
献，他纠正了皮尔逊工作中的一个关键性的错误. 

5.3.1 理论分布完全已知且只取有限个值的情况 

设有一总体 X . 设从某种理论，或单纯作为一种假定，认为 X 
的分布为 

H 0 ： P(X - a { ) — pi , i = 1 yk (3.1) 

其中 A ， A ， / = 1 ，…， 6 ，都为已知，且 a x , *** y a k 两两不同，久>0, 
2’ = 1， . • • ，々. 

现在从该总体中抽样 n 次，或者说，对 X 进行》次观察，得样 
本入!，…，要根据它们去检验 (3.1) 的原假设是否成立.至 
于为什么这种检验称为拟合优度检验，将在下文解释. 

先设想”足够大.则按大数定理，若以 v 记&，…，中等于 
A 的个数，应有〜九，即 w & hA . 我们把哗, 称为 a! 这个 
“类”的理论值，而把称为其经验值或观察值.如下表所示 


类别 


mem 

WBM 


IHH 


理论值 



• 


IHH 


经验值 

mm 

mm 

mm 

■■ 

mm 

■3 


显然，表中最后两行差异愈小，则愈像是对的，我们也就愈乐 
于接受它.现在要找出一个适当的量来反映这种差异.皮尔逊采用 


" 我们在讲点估计时提到的“矩估计法”，就是皮尔逊为这个目的而创立的.有趣的 
是，目前在数理统计学中，矩法的 Popularity 反倒超过了皮尔逊分布族，这恐怕是皮尔 
逊始料所不及的. 
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的量是 


Z 二(理论值-经验值) 2 /理论值 

% , (3 * 2) 

= 2 ( n pl - ^l) 2//n pi 

这个量每项的分子部分好解释，分母 用”九 则难于从直观上说清 
楚了，见下文. 

这个统计量称为皮尔逊的拟合优度/统计量，下文简称 y 
统计量.名称的得来是因为下面这个重要定理，它是皮尔逊在 
1900年证 明的： 

定理 3.1 如果原假设 Ho 成立，则在样本大小 《 — M 时 ， Z 

的分布趋向于自由度1的％ 2 分布，即 xi — i • 

这个定理从理论上说明了在 z 的定义中，分母取为 n 九的道 
理 :若用 别的值，就得不到这么简单的极限分布. 

这个定理的严格证明超出了本课程范围之外.为使读者相信 
其正确性，我们对 A =2这个简单情况仔细考察一下，在这一情 
况，有 

np 2 - n (\ - pi ) ,vi - 7 i - v x 

于是 

Z — ( 7 ip i — v \) 2 / np \ (?7 — np \ — n + v \) 2 / n {\ ~ p \) 

二 （h — np \) 2 / np\(l - p \) 

=[(vi - np\)/ v 7 npi(l ~ p\)] 2 

据中心极限定理（第三章定理4.3)，当 n — ⑺时，（ V ! - np x )/ 
V ^ i(l - Pi ) 的分布收敛于标准正态 / V (0，1). 于是 Z 的分布收 

敛于标准正态变量之平方的分布，按定义， g 卩 xiM ， 因此处 
k ~2. 

用这个定理就可以对作检验.显然，应当在 Z > C 时否定 
H () , Z < C 时接受 Ho . C 的选取根据给定的水平《，若近似地认为 

Z 的分布就是;，则显然应取 C 为； 于是得到检验： 

当 Z < xhu ) 时接受 H 0 , 不然就否定 (3.3) 
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这是一个“非此即彼”的解决方式，在实用上，有时采取一种更 
有弹性的看法，它能提供更多的信息，且解释了“拟合优度”这个名 
词. 


假定据一组具体数据算出的 Z 值为 Zt ) .我们提出这样的问 
题:在 成立之下，出现像 A 这么大的差异或更大的差异的可 
能性有多大？按定理3.1，这概率，暂记为 〆 々），近似地为 

P ( Z 0 ) - P(Z>Z 0 )|H 0 )^ 1 - K k ^( Z 0 ) 

其中为自由度 A -1 的；^分布函数.显然，这个概率愈 
大，就说明即使在成立时，出现 Z 0 这么大的差异就愈不稀奇， 
因而就愈使人们相信的正确性.以此之故，把解释为数 
据对理论分布 (3.1) 的“拟合优度” •拟合优度愈大，就表示数据与 
理论之间的符合愈好，该理论分布也就获得更充足的实验或观察 
支持.检验 (3.3) 不过是树立了一个门槛 a: 当拟合优度 p(Z Q ) 低 
于 a 时，即放弃 H 0 . ♦自然，若取 a =0.05, 则当 户（2 0 〉=0.06 或 
p ( Z 0 ) =0,94 时，都接受 Ho . 但后者数据对理论分布的支持显然 
比前者大得 多:前 者虽勉强过关，但已接近崩溃的边缘. 

例 3.1 考虑前面提的检验骰子均匀的问题，它相当于 a t = 
“Pi = 1/6, / = 1 ，…， 6 U , 的具体值不重要，它只是代表一个类而 
已），设作了 ” =6 XlO iG 次投掷，得出各点出现的次数为（理 论值： 

np — 10 10 ) 

= 10 10 - 10 6 ， v 2 = 10 10 + 1.5 x 10 6 ， v 3 = 10 10 - 2 x 10 6 
v 4 = lO 10 + 4 x 10 6 ， v 5 = 10 10 - 3 x 10 6 ， v 6 = lO 10 + 10 6 /2 

(3.4) 

算出这组数据的拟合优度统计量 Z 之值为 


* 这种看法不仅适合于此处，也适合于前面所讲过的那些检验问题.举例而言，设 
X 是抽自正态总体 A /(0，1) 的样本，要检验 f / o : (9<0,设是 X 的具体值.可以把 P 

( x >^o I 6» = 0 ) = 1 -少(心)作为 a 这个数值的拟合优度■如果> v a ，则拟合优度 
低 P a 而否定 hT ( } .如果 a =0.05,则 jto 二2和 x () -100 都要否定仏，但后者提供的否 
定的证据，显然比前者有力得多. 
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Z 0 = (10 12 +2.25 x 10 12 + 4 x 10 12 + 16 x 10 12 

+ 9 x 10 12 + 10 I 2 /4)/10 10 = 3250 
此处 -1=5 .查； t 2 分布表， K 5 (3250) = 0.9999...， 故拟合 
优度/ >( Z Q ) 几乎是 0. 这说明，实验数据极不支持“骰子均勻”这个 
假设. 

这个结果值得玩味.如拿数据 （3.4) 对丸作估计，则估出丸 
的值都在1/6 土 1( T 4 数量级之内.从实用的观点看这恐怕可认为 
是足够均匀了.这种差异，即使存在，也许并无实用意义.可是，由 
于试验次数极大，我们达到了“明察秋毫”的地步，把这么小的差异 
也检测出来了 .本例说明 ：假设 检验的结果的含义必须结合其他方 
面的考虑(样本大小，估计值等），才能得到更合理的解释.统计上 
的显著性并不等于实用上的重要性，这一点在前面已提醒过了. 
下面举一个反方向的例子. 

例 3.2 —家工厂分早、中、晚三班，每班8小时，近期发生了 

一些事故，计早班6次，中班3次，晚班6次.据此怀疑事故发生率 
与班次有关，比方说，中班事故率小些，要用这些数据来检验一下. 
我们把 

事故发生率与班次无关 （3.5) 

作为原假设，如分别以1，2,3作为早、中、晚班的代号，这个假设相 
当于 (3.1) 中的 a 2 = 2 ， A - l /3 ,z = l ,2,3. 理论值为 nPi = 15 X 
1/3 = 5.算出 Z 之值为 

Zo — [(5 — 6) 2 + (5 - 3) 2 + (5 - 6) 2 ]/5 = 1.2 

々 _ 1=3-1=2.查；^2分布表，得拟合优度 

p ( Z 0 ) = 1 - /< 2 (1 .2) = 1- 0.451 二 0.549 

故数据未提供否定 H q 的证据.更清楚地说，即使事故与班次完全 
无关，在每一百家工厂中，你平均会观察到55家，其各班次事故数 
表面上的差异甚至比这里观察到的还大.因此，表面上6:3:6的差 
异其实并不稀奇. 

没有统计思想的人易倾向于低估随机性的影响.在此例中，由 
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于观察数〃 =15 太小，随机性的影响就大了.读者可计算一 下:若 
观察的总事故达到75而仍维持上述比例（即早班30次，中班15 
次，晚班30次），则 /i(Z 0 ) 降至 0.05 以下，因而有较充分的理由认 
为三个班次有差异了.在15这么小的观察数之下，对目前这个结 
果，只宜解 释为： 一方面数据未能提供事故率与班次有关的支持， 
一方面也认为表面上的差异究竟不宜完全忽视，值得进一步观察. 

5.3.2 理论分布只含有限个值但不完全已知的情况 

先举两个例子. 

例 3.3 回到“符号检验”中讨论过的那个问题.被调查者对 
甲、乙两牌号何者为优的回答可能有 三种： 1 . 甲优 .2. 乙优 .3 .认 
为一样或不回答.所谓“甲乙两牌号一样”这时应理解为，这 三种情 
况的概率依次为 p 1 = e 9 p 2 ^ e J p 3 ^i -2(9,对某个 d > o , e <： 
1/2•在这里，理论分布只是部分已知（有上述形式，特别是 ，川 = 
/ >2) ，但其中包含未知参数心并不完全知道. 

例 3.4 想要考察特定一群人的收入与其花在文化上的支出 
有无关系的问题.把收入分成高、中、低三档，文化上的支出分为 
多、少两档.则每个人可归入六个类别中之一.分 别以 X 二 1，2, 

…，6记（高，多），（高，少），…，（低，少）这6类.如果这二者独立， 
则应有，例如 


P (高，多）= P (高) P (多） 

分別以 P (高） ， P (中 ）， P (低）.这三个数就是收入为 
高、中、低档者在全体人口中的比率，/^ +外屮 = l .类似地以 

和❿分别记 P (多）(少），有 w + g 2 = l •这样，若独立性成立， 
则 X 的理论分布为 

f P(X 二 1 ) 二 PiQuP(X = 2) = p\q 2 ,P(X 二 3 ) 二 p 2 q x 
1 ~ 4) = p2qi^P{X = 5) = psq\ ,P(X = 6 ) 二 P^qi 

(3.6) 

这里，我们知道理论分布有 (3.6) 这种特殊形状，但并不完全知道， 
因为其中包含未知参数九，九和，其数目为 3. 
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这个例子代表了一类重要应用，将在下一段专门讨论. 

现在我们可以提出一般的形式，设总体 X 只取有限个值 
…，&，其概率为 

P(X ^ a { ) = Pi(d { * ,(9 r ) , i - 1， …，々 (3.7) 

其中^， …， A 为未知参数，可在一定范围内变化.如在例 3.4 中， 
三 个参数 Px ， p 2 ^ q \ 的变化范围为 

Pi 0,p { + /) 2 ^ < 1 

参数个数 r<6-2. 


设对 X 进行了 n 次观察，仍如前，以记 X取〜的次数.所 
要检验的假设是 


H 0: (3,7) 对（心，…，^)的某一组值（辦，…，的）成立 （3,8) 
检验这个假设的步骤与前面相似，只多了一个参数估计 问题： 

1°利用数据对参数^，…，久之值作一估计.采用极大似然 
估计法，即使(略去了与化 ，…， 0 r 无关的因子 /( Vl T … w !)) 


L = /^(〜…，沒） • …， d r ) … p 》、 d u …， d r )、 

达到最大.取 logL， 对民求偏导数并命之为0,得 


pj 〔〜 ，…， d r ) 


办〆沒1 ，… ，氏 -) 
dd i 


= 0,z = 1， …， r (3.9) 


此方程组的解记为I，…， 


2°就以（&，•"，&)作为（仏，…，久）的真值.算出 


A. 二 pAh ， … ， h、，i 二 1 ，…，々 

然后按公式 (3.2) 算岀统计量 Z 之值.有如下的 定理： 

定理 3.2 在一定的条件下，若原假设 （3.8) 成立，则当样本 

大小⑺时， Z 的分布趋向于自由度々-1- r 的X 2 分布，即 

2 

IC k - 1 - r . 

这个定理是费歇尔在1924年证明的，其确切条件很复杂，不 
在此细述了■与皮尔逊定理 3.1 相比，差别在于自由度由々 -1 下 
降为 k~\-r. 即 ：所减 少的自由度正好等于要估计的参数个数. 
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在这以前，皮尔逊曾认为这自由度仍为々 -1. 

3。据定理3.2，若以2()记统计量 Z 的具体值，算出 Z Q 的拟 
合优度户（2 0 ) = 1 - Ka - — r ( Z 0 ). 如给定检验水平心则当 P ( Z 0 ) 

< a 时（即 时），否定 H 0 . 

在这几步中，最麻烦的往往是解方程组 （3.9) .要计算 p ( Z 0 )， 

得有较细的 f 分布表. 

现在回到例 3. 3.调查了 n 个人，以 im ， v 2 和 v 3 分别记回答 
“甲优”，“乙优”和“认为一样或不回答”的人数.例 3.3 已指出 
p \( d ) = p 2 ( d ) = d , p 3 ( d ) ^ I - 2 d , 由此得出 （3.9) 为 

( 1>1 + ^2 ) ^ — 2 V3/( 1 — 26 ) = 0 


其解为 § = ( Vl + V 2 )/2 W . 于是算出各类的理 论值: 


np\(d) = (vi + vi) ^2 jnp 2 (d) = (vi + V 2 ) ^2 j np^(d) = V 3 


因此 
Z = 





^1 + ^2 

~2~ 



+ ^2 
~~ 2 ^ 



— V 2 ) 2 



(3.10) 


此处 k — 3 ,r — \^ 自由度为々 —l — r = 


不难看出， （3.10) 与用以下方法算出的 Z —致 ：只考 虑有效 
回答数 /V = h 十 V 2 .把它作为一个々 = 2. 九= p 2 ~\/2 的假设去 
检验.事实上，按这个处理法， Z 值为 
( v ! - N /2) 2 /( N /2) + ( v 2 - N /2) 2 /( N /2) = ( v ! - v 2 ) 2 /N 


即 (3.10). 按定理3.1，当原假设川=/> 2 = 1/2成立时，其极限分 
布应为 = 与由定理 3.2 得出的一致，这个特例说明 了：在 
有需要由数据估计的参数时，自由度确有所降低. 


5.3.3 对列联表的应用 

列联表是一种按两个属性作双向分类的表.例如，一群人按男 
女（属性 A ) 和有否色盲（属性 B ) 分类，目的是考察性别对色盲有 
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无影响.属性也可以是在数量划分之下形成的.如在例 3.4 中属性 
A ——收人可按月3000元以上（高）、月1000—3000元（中）、月 
1000元以下（低）分为三档，如数据量大，档次还可以多分一些. 

表 3.1 显示一个 aXb 双向列联表.属性 A 有 a 个水平1,2, 
…，有6个水平1，2,…，6 .随机观察了 n 个个体，其中属性 
A 处在水平 f， 而属性 B 处在水平_；的个体数，为表中之％.又 



.二 S ? n v = Yj (3.11) 

J ^ 1 / 二 1 

分別是属性 A 处在水平 f 的个体数和属性 B 处在水平』的个体 
数.记 

Pu =户（属性 A，B 分别处在水平 hj) 

问题是要检验 A，B 两属性独立的假设 Ho. 如 Ho 为真，应有 

Pij — ' 2 ~ 1, ■ * * , a ；_； = 1，…，6 (3.12) 

其中 

⑷二 P (属性 A 有水平0,% = P (属性 B 有水平 j) 

因此，叫之成立，等价于存在 U. U 丨，满足 

^ b 

u i >0,2 = 1；^ > 0, X ] % 二 1 (3*13) 

使 (3.12) 式成立. 】 

在这个模型中，％等充当了参数…， <9 r 的作用.总的独 
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立参数个数为 


r ~ (a- 1) + (6 - 1) = a + 6— 2 

为估计 ，巧， 写出似然函数 

l ^ nn ( M )^ n 々 n + 

；=1 j — I ，二 1 户 1 

取对数 


a 


h 


logL = 2 n i * logw/ + X) n 


注意独立参数为〜 : 和％ ，…，， 而 u a — \- U \~ 


u a -\ ,V h ^ \ ~ Vi 


舞摯 


dtl a 

—- \ ，取 


du 


— l，f =1 ，…， a — 1， 


3v ； 


1，…， 6-1 .由此得方程 


0 = 

9logL 

Bui 

n z . 

Ui 

一 

=1 ，…， a - 1 

0 = 

3lo^L 

’ 

v j 

n. b . 

— V b ， J 

= 1 ， … ，厶 —1 


由这方程组，并利用 （3,13) 以及 


即得解为 


I -1 



Hi = n^/n ji — 1 ， … ， a; Vj = — 1， …， 6 

(3.14) 

其实，估计量 (3.14) 不是别的，正是用频率估计概率.例如，化.是 
在》个个体中，属性 A 取水平 f 的个体数，故 n x ./7 i 正好是频 
率\ 


由估计量 (3 • 14) 得心= 4 ,/« 2 ，因而得到第 （f ,j ) 


^ 不允许为 0. 实际上.若某个 = 0( 因而^ = 0，）则表 3.1 的第！列全为 

0.这时 A 的水平/应挡划去.这当然不是说 A 不能有水平 I 只是在样本中未出现，无 
法讨论，只能看作没有. 


• 263 . 




格的理论值为 71 &二化因此统计量 Z 为 

a b 

Z ~ 工 ] 2 — 71(. n .j/’n ) 2 /( n；.n .j/n) 

/ 二 l ) = i 
a h 

— X ] 2 ( n ? i i} — n x . n . } ) 2 /( nni，n . } ) (3.15) 

，二1』二1 

自由度为裊 一1 — r = — 1 ~~ (a b ~2) = (a —1)(6 — 1). 

在 6 = 2 这个特例，表 3.1 有时也称为“四格表”.简单的 
代数计算证明，这时有 

Z = W ( ”11 ^22 — ” 12 打 21 ) 2 /( n l. n 2 . 打 .1 W .2) (3.16) 

自由度为 1. 

例 3.5 考虑例 3. 4.设随机从某特定一大群人中，调查了 
201名，结果如下表.其中 A 表收入，1，2,3分别表示低、中 、高 ； S 
表文化支出，1，2分别表示“少”和“多”. 




须分别就每个格子计算和 （3.15) 中的项.例如，第一个格子为 
(201 x 63 — 79 x 160) 2 /(201 x 160 x 79) = 0.0002, 

其他5个格子之值依次算出为0 . 8333,0 . 6367,0 . 0008 ,3.2521, 
2. 4847.这6个数的和，即统计量2：的值 Z G ， 为 7.2078, 自由度为 
(3 - 1)(2-1)=2 .查;分布表，得拟合优度 p ( Z 0 ) =0.0207 .此 
值很低，说明“收人与文化支出无关联”的假设极不可能成立.考察 
所得数据，收人高者文化支出偏低. 

例 3.6 有三个工厂生产同一种产品.产品分1，2,3三个等 
级•为考察各工厂产品质量水平是否一致，从这三个工厂中分別随 
机地抽出产品109件，100件和91件，每件鉴定其质量等级，结果 
如下表. 
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级 

1 i 

2 

1 

3 

和 

1 

58 

38 

32 

138 

2 28 

44 

45 

117 

3 

23 

18 

14 

55 

和 

109 

100 

91 

300 


“各工厂产品质量一致”这个假设，可看作是“工厂”和“质量等 
级”这两个属性独立的假设.用公式 （3. 15)，算出统计量 Z 之值 
Zn 二 13.59. 自由度为 （3-1)(3-1)=4 .查；^分布表，得拟合优度 

为 MZ 0 ) = 1- K 4 (13.59)<0.01， 故结果高度显著，即有明显证 
据说明各工厂产品质量并不一致.从表上数据看，1厂质量明显优 
于另两厂，而2,3厂的差别似不大. 

本例与例 3.5 比有一点不同.在例 3.5 中，每一个体抽出后， 
才去确定其两属性的水平，故表中边缘的数据，即79,54,68,及 
160,41，都是随机观察结果.本例则不然.三厂各自抽样数109, 
100,91等，在抽样前已定下，并非随机，每一个体在被抽出时，其 
A 属性的水平事先已定（从第一厂柚的产品，事先就知其 A 属性 
的水平必为 1). 虽有这个差别，但理论上可以证明 ：定理 3.2 仍然 
适用. 

像例 3.6 这种检验问题常称为“齐一性检验”.因为，本例更自 
然的看法是把三个工厂的产品看成三个分别的总体，每总体依质 
量等级各有其分布，共有三个分布.检验的假设是“这三个分布一 
致”（或齐一）.而像例 3.5 那种检验问题则称为“独立性检验”，其 
目的是判定两个属性有无关联存在. 

5.3.4 总体分布为一般分布的情形 

这包括总体分布为离散型，但能取无限多个值例如波哇松分 
布的情形，以及总体分布为连续型，例如正态分布的情形 .设 Xu 
…，为自某总体中抽出的样本，要检验原假设 

H 0: 总体分布为 F(x) (3.17) 
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其中 FU ) 可以是完全已知，也可以带有未知参数，这时 F ( x ) 成 
为 F (了； A ，…，(^).其中（心，…，仏）可以在一定的范围内取值，而 
(3.17) 则改为 

对其一组值（的，…，的），总体分布为 FU •，的，… X ) 

(3.18) 

检验这一假设的办法是，通过区间分划把它转化为已讨论过 
的情况.为确定计，设 F 是连续型的.把（-° 0 , 00 )分割为一些区 
间 

— oo = ao < ax < a2 < *_*< a k -\ < a k — 00 

~~ ■共々个区间 ： 二 （ ao ， a 1 ] ，…， L = ( a — 1 ， a ; ] ， • • • ， = ( an ， 
A ). 如果总体的分布为 F (: r ; 6^， …，^)，则区间有概率 

piidi ,-- ,6 r ) 二 F ( ai ; d \,“.， d r 、 

- Fimd ' ，…， d r )，i = 1， … ，是 (3.19) 

以 V , 记样本；^，…，、^中落在区间从内的个数，纟通过 
这个办法，我们就回到了在 5.3.2 段中已讨论过的情况，连记号 
A ( A ， …，也一样.以下的步骤就与那里讲的完全一样，基 

于定理3.2,拟合优度统计量 Z 的极限分布为/[卜，，故分区间 
的数目 A 不能小于 r + 2. 

当然，通过分区间，我们实际上是用另外一个假设 JT Q 代替了 
原来的假设 (3.18). i % 是: “对某一组值（列，…，把），总体在区间 
( 内的概率为 Pi ( d ° i ，*** ,6 ° r ),i 二 1，…，是”.若 (3.18) 成立,当 
然成立.反之，由 iTo 成立推不出 （3.18) 成立，因为 iTo 丝毫没有 
限制总体在每个区间 / z 内的分布如何.所以如否定了 fTo , 则更有 
理由否定若接受 fT G ， 则我们也接受——这方法就是如此 
规定的.可以设想，若区间分得很细，则每个小区间 h 内的概率都 
不大， iTo 与之间也就更接近，但是，分区间数々取决于样本大 
小 n •为了 使定理 3.1 或 3.2 中的极限分布与 Z 的确切分布的差 
距缩小，就要求分区间数少些，以使每区间内样本数目（即大一 
些，这是两个互相矛盾的要求，在实际工作中，通常是根据样本值 
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的情况来划分区间 \ 以使每个区间内所含样本数不小于5,而区 
间数6又不要太大或太小.一般在 40< n <100 时，区间数可取为 
6至8;当 100< n <200 时，可取为9,…，12.当 w >200时可适当 
增加，一般以不超过15—20为宜.这样划分时，有时不能照顾到各 
区间（除 h 和4夕卜）之长相等. 

对总体为离散的情况，设它能取的值按大小排列为 aj < a 2 < 
…. 若样本 Xi ，…， 中有较多个（例如至少5个以上）取+为 
值 ，则〜 自成一组.若不然，则把相邻的几个+并成一组，分组数 
目 的考虑 与上述 相同. 


这个检验中最难的一部分就是计算出 …， d r 的估计值夕^ 


…，■这要通过解方程组（3.9)，其中…， A ) 由 （3.19) 给 
出.这种方程确切解的计算很难.例如，若要检验总体分布为正态 





V2tco' 


exp 



要把这样的表达式代入 （3.9) 而求解是很难的，因此在应用上，常 
使用更易于计算的估计，如用 


p. = X ，3 = S 

其中 X 和 S 分别是样本均值和样本方差.理论上知道，用这一估 
计代替由 （3.9) 决定的估计去计算统计量 Z ，已使定理3 . 2的结论 
不成立了，但差距还不大，故应用上还是可以. 

以下这两个数字例子取自 H _ 克拉美的《统计数学方法》第30 

早_ 

例 3.7 有一取0，1,2…为值的离散变量，对其进行了 2608 
次观察，结果如下表 所示： 


* 按理论的要求（为了使定理 3.1 ，3.2的结论有效），划分区间必须在未看到样本 
之前就做好，而不能依样本情况去划分•但实际工作中难于遵守这一点，它引起的误差 
般 也很小，不必拘泥. 
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i 

o 

mmm 

3 

4 

5 

6 

7 

8 

9 

(10 11 

12) 


I 57 

1 

203 383 

525 

532 

408 

273 

139 

45 

27 

(10 4 

2 ) 


要检验其分布为波哇松分布的假设. 


先是分组.对；二0,1，…9, V ,都比较大，可单独成组.10,11和 
12合并为一组，故该组的•，应改为 10 + 4 + 2 = 16. 

其次是用样本估计波哇松分布的参数 A . 要是用 （3. 9)，则甚 
为麻烦.此处用其通常估计 X : 

A = X = 3.870 

然后据此算出各组理论值.除最后一组外，理论值是 

n ^ x X z / i \ - 2608 e _3 87 °(3.870) V /!, z - = 0，1，…，9 
例如，算出 i =0 时为54.399, z •二1时为 210.523 等.最后一组的 
理论值为 


2608^1 e _3 870 (3.870)Vf! - 17.075 

i 二 10 

最后按公式 (3.2) 算出统计量 Z 之值，结果为 2() = 12.885 .此处々 
= 11( 共分11个组）， r = 1( 有一个参数 A 被估计），故自由度为 
ll - l - l =9 .g x 2 分布表，得拟合优度为 P ( Z 0 ) = I - K 9 
(12.885) = 0.17 •这拟合优度尚可，但不太好：即使总体真服从波 
哇松分布，也有17%的机会产生比本例数据更大的偏离 . 0. 17概 
率的事件当然不稀奇.但这概率毕竟偏小一些，使人不很 放心. 

例 3.8 瑞典斯德哥尔摩自1841年至1940年，百年期间6 
月份平均温度的记录，分组后如下表•要检验这温度的分布服从正 
态分布 N ("， a 2 ) 对某个（"，¥)， 


区 间 
(摄氏度） 

观察数 V , 

区间 
(摄氏度） 

观察数 V , 

一 12. 4 

10 

--- - - ^ a i 

14.5—14.9 

10 

12. 5— 12. 9 

12 

15* 15.4 

9 

13 . 0—13 A 

9 

15.5— 16 .0 

6 

13.5 — 13.9 

10 

16.0 —16,4 

7 

14.0—14.4 

19 

16.5 — 

8 
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克拉美给出的"和 <7估计值是= 14, 28,5 = 1.574 .利用这 
组估计就可以算出各组的理论值.例如， 12.5—12. 9这一组是 


100 


1 


/2 ^r 1.574 


"12.95 

r (x - 14. 28) 2 ] 

exp 

12.45 

■ _ 2 x (1.574) 2 . 


djc 


二 100 x 0.0789 
而 一 12.4 这一组为 

100 -^^ 


7.89 



'12.45 

r (x - 14.28) 2 ] 

574」 

exp 

— OO 

2 x (1.574) 2 J 


djc 


二 100 x 0.1289 = 12.89 

等等，式中的积分可通过转化到标准正态分布函数去计算 


2?ra J 


exp 


a 


2 a 


2 


( X ~ a ) 2 


dx 


查标准正态分布表即得. 

注意以上计算中的积分限，它是取在相邻区间的相邻端点的 
中点，这符合四舍五人法则. 

这样算出各组理论值后，用 （3.2) 算出 Z 值.本例结果为 
7.86 .自由度々 - I _r 二10 -1-2 = 7 .拟合优度为 1 _ K 7 (7.86) 
= 0.85 .拟合程度很高. 

如果数据一开始就用分组形式给出（原始数据没有给，或最初 

记录时就只记下它在何区间），则 々和 S 只能用这分组数据算.可用 
公式 


m ^ 士 2— j 2 = (叫 - p .) 2 

其中 m 是第〗个组区间之中点.这时，最左最右两个区间也要界 
定，可取其长为其相邻区间之长. 

最后，如果理论分布 F 不包含参数，则各区间理论值直接由 
n [ F ( a t )~ —0] 算出，一切简单得多.自由度是 k_\，k 为分 
区间数目. 
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附 录 

A . 若干检验的 一 致最优性 

在本章定义 1.3 中已给出了一个检验问题 H 0 : H x 的水平 a 
一致最优检验的定义.它是 一 '切水平 a 检验中其功效在对立假设 
H \ 上处处达到最大的检验.如已说明的，这种检验的存在是稀有 

的例外，但在一些重要的单参数分布族的单侧检验问题中，以及在 
个别多参数检验中，它确实存在 .5.2 节中许多例子属于这种情 
况.这里我们来作一些讨论. 

1. 简单假设下的奈曼-皮尔逊基本引理 
考虑一个最简单的 情况： 原假设和对立假设中，都只 
包含一分布.为确定计，设分布都有密度，离散型的情况完全类似, 
只须把积分变成求和即可.因此，有 

H 0: 总体有密度 / oU ) 

总体有密度 / jU ) 

设&，… ，尤 为样本，则 （ Xi ，…，尤）的密度，在 Ho 和 Hi 之下， 

分别为 go(*v) 二 /o( 工 i)"./o(A ) 和 gi( ： y) = /i( 工 i) ， "/i(x „). 这 

里已简记 y = (Xi ，…，.求这个问题的水平 a 的检验，转化为 
下述数学问 题:找 J 空间之一区域 Q , 作为检验的否定域（当 d ， 
…， X „) 落在 Q 内时否定不然就接受 H Q ). 为使 Q 达到最优， 
就必须在条件 

go ( y)dy < « 

J Q 

之下，使 达到最大.很容易看 出：为 达到这一点， Q 必 

J Q 

须这 样取: 把比值大的那些 y 收进来.这就是奈-皮 
基本 引理： 

奈 - 皮基本引理水平 a 的一致最优检验 p 的否定域 Q 应如 
下取: 找常数 C ， 使 

Q = \y • g \( y ) / go ( y ) > Cl (1) 
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而满足 


go(y)diy = ^ ( 2 ) 

J Q 

证 （2) 式保证了检验 p 的水平为《，现设，为另一水平《检 
验，其否定域为 QMH Q 与 CT 的公共部分为记 Q 中去掉 
R 的剩余部分， OS 记 Q / 中去掉尺的剩余部分（图 5. 5)，则易见 


Q J Q 


r 


/* 


g \( y)dy - 


j 


gi ( y)(^y (3) 


由于 p 有水平 a ， 有 

gO (： y ) 办 < a 

J Q y 

再由 （2) 式，知 

• c 

go ( y 〉 办 > go ( y)<^y 

JF * 、 一 



因为 Qi 在 Q 之外，按 （1) 式，当: y 属于 Q、 
时，有幻 b)<C go (30 .而当 y 属于 Qi 时有 
gi(30>Cg 0 (j) .故 


g\(y)dy > C g 0 (y)dy, gi(y)dy < C ^o(^)d^ 

J J Qj J Q\ J Q\ 

由此及（3)，（4)，即知 

™ 广 

g\(y)dy > g\(y)dy 
J Q J Q ； 

即检验 9 的功效总不小于 〆 的功效，由于 〆 是任取的水平 a 检 
验，证明了 ^是水平 a 的一致最优检验. 

2. 复合假设检验的情况 

现考虑一般的复合假设检验问题.关于其水平 a —致 
最优检验的存在，有如下的简单 结果： 

定理在中取定一值知，对中的值力建立假设检验 
问题： 



( 5 ) 
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按奈-皮引理，求出其水平 《 —致最优检验&如果 P 符合以下两 
个条件，则它必须是原问题的一个水平 a —致最优 检验： 

1°检验 p 也是的水平 a 检验. 

2°检验^不依赖于&值. 

证设之任一水平 a 检验，则它必是 (5) 的一个 
水平 a 检验.这很显 然：以 记 〆 的功效函数. 9,为只 0 出' 
的水平 a 检验，意味着/^(約在 H g 上处处不超过 a ，因而特别在 
&0 点不超过 a . 这样和 〆 都是 （5) 的水平 a 检验而 p 是 （5) 的 
水平 a —致最优检验，故因为这个事实对 
中任一个 h 都成立，即知 9 为⑴曲 的水平 a —致最优检验. 

在本定理中，外值如何取？对形如 6< a 或这样的单侧 
原假设，00总是取为 a . 

例1 X !，-, X „ 为抽自正态总体~(6，^ 2 )的样本， a 2 已知， 

考虑检验问题 


Hq ：6 a ;Hi ： 6 > a 

a 为给定常数. 

按本定理，取 do ~ a ，任取心 >a . 作检验问题 

Hq id = a;H\：0 ~ 61 

按奈-皮基本引理， （7) 的水平 a —致最优检验 f 有否定域 


( 6 ) 


⑺ 


(j：i ，… ，: ) : 


n 


/2 


KG 


exp 


n 


( x , - e x ) 2 


n 


nItco 
取对数，易知此集合为 


exp 


2a 


2 




a 


2 


> c 


1 (:i ’ …， - a ) X) X, > ci\ 

7 = 1 

对某个常数.因心-«>0，^>0，此集合化为 

( n 

\(x U "',x n )： 2] > C 2 ( (8) 

的形状 . C 2 为另一常数，要使此检验有水平 a ， 应取 C 2 = _ + 
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此值与 h 无关，因而定理的条件 2° 满足.另外，这个检验 

的功效函数是 1- 〜是 e 的上升函数.所以，这个检 

验也是 (6) 的水平《检验.这样，条件1°也适合.据定理，这检验就 
是 （6) 的水平 a 的一致最优检验. 

指数分布，二项分布和波哇松分布参数的单侧假设检验问题， 
也可以用与本例相同的方法证明其一致最优检验存在.留给读者 
作为习题. 

若在本例中考察双侧假设 H 0 ：6 = a , Hi ： 6^ a , 则一致最优 
检验不存在，其理由现在也不难看出，因现在^可以大于 a 也可 
以小于 a . 当 6 x > a 时，检验问题 （7) 的一致最优检验的形式如 
(8) .若&< a ，则一致最优检验的否定域形如 

n 

j (: C! ， … ， X„) : S A < : : 

；-1 

与 （8) 不同.因此，定理的条件2°不满足. 

B . 非中心 f 分布与£检验 

设 x 与 y 独立， x 〜 iv ( o ， i )， y 又设 s 为常数，则随机 

变量 z = (x + 幻的分布称为自由度 h 、 非中心参数占的 

非中心 r 分布，记为2〜1&~, 5 的分布函数将记为^，以：0.当 
占 = 0 时，就得到在第二章例 4.10 中介绍过的自由度 7 Z 的 f 分布 
(有时称中心 t 分布）. 

非中心 f 分布也是数理统计应用上的重要分布，但其分布函 

数的形式很复杂，此处不去介绍.只提到一点对下文有用 

的性质••若 心〉 心，则 RaUXFmU ). 事实上，记 

1 

— (叉 + ^i) j/J~^Y — 1»2 

x , y 如上文所述，则有 ZlSz ] ，故对任何： r 有 
P(Z 2 ^x).^ F nfS U)^F n ^U). 

有了这些准备，我们可以解决 5.2 节中遗留下来的有关/检 
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验的问题. 

设 X u -\ X n 为抽自 iV (<9， a 2 ) 中的样本 ，0,^ 2 都未知，对假 
设检验问题 

H 0 ： d>d 0 ,H { ：d < 6 0 

我们引进了 i 检验0，由 （2.14) 给出.其功效函数为 （2.15) .现易 
知， （2.15) 的 〜( d ， a ) 为 

^{ d . a ) = F „ 一 t n ^ x { a )) (9) 

事实上，有 

J\(X - 6 0 )/S - - d ) + \s 2 

当参数值为 (6 y a ) 时 ， (X ~ d)/a 〜 N ( Q ，1 )，（n — l ) S 2 / tr 2 〜 
，且二者独立.故按非中心 r 分布的定义及 (2.15) 式，即得 

⑼. 

由 （9) 式可知 ，馬 （0， a ) 为0的下降函数■因当沒增加时， 
-外） / a 增加•按前面证明的性质，即知 （9) 式右边下降，因 

为 〆 e 0 ， a ) = a ，知当 6>6 0 时有馬 （0， a )< a . 这证明了 j 检验 
(2 * 14) 有水平 a . 

其次，功效函数 (9) 的形式也说明 ：给定 d ^ do 及 ，不论 
你取样本大小77多大，也无法保证对一切7>0有 
事实上，固定 W ， 当 ( T —" 00 时有 

lim 馬（汐卜汀）= )/£T (~ t n ^( a )) 

tr™^ 00 (j—^oo 0 

— ^- l ( a )) - a 

这样，不论你固定 rz 多大，只要 a 充分大，就可以使 ^{6 u a )< 

如果以^为单位来衡量仏与％的差距，即要求当 
(^ - 知） / a 固定为某个指定的知<0时有为指定 

的小于1的数），则这可以 做到： 只须取 n 充分大，使 F n . lMd{) 

(-L — 〆 《))>，这可以通过查非中心〖分布表求得. ° 
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这个在实用上看也是合理的.在方差未知时，均值距离的实际 
意义如何，往往要看方差大小而定.方差愈大，一定的均值距离意 
义就愈小.好比枰的误差愈大，两件东西的重量就必须有更大的差 
别，才能较有把握地在这把秤上显示出来 .（9) 式中的功效函数，通 
过 （6- 知 ）6 而依赖于（心^)，反映了这一点. 

类似的结论对两样本 z 检验当然也成立，我们把细节留给读 
者去完成. 

习题 

1. 设X为抽自正态总体/V(匕 a 2 ) 中的样本(样本大小为 l).a 已知， 

6都是给定常数， a<6 .要找原假设的水平 a 检验.完成以下的 
步骤： ‘ 

1°从直观考虑， Ho 的接受域应取为即当 C!<X<C 2 时接 
受 Ho, 不然就否定 Ho. 写出这个检验的功率函数 (3(6). 

2°找出常数<^，(： 2 使1°中找出 /?( 们满足 

0(a) 二 /3( b ) = a 

3°证明由1°，2°决定的检验确是的水平 a 检验，即 (3( d)< a 当 a<d 

4°证明这样决定的检验满足 

趴0) — 1，当 I 

解释这个结果的意义. 

5°如果&，…，为抽自 N (匕 a 2 ) 的样本4已知，利用上面的结果作出 
H 0 的检验. 

2. 设&，…，是抽自指数分布总体的样本，0< a <6, a , 6为已知常 
数.要检验原假设.描述一下（不须详细推导）用解第 1题的思 
想来解这个问题的过程. 

3. 设 A ，…， 和 Y ! ，…，分别是抽自正态总体和 N ( 6 , 
4 ) 的样本，未知而已知.试作出原假设 H () : a = b 的水平检验. 
绐定4〉0,^/2〉0,令772 : = n， 决定 n， 使当 i a - 6 | 时，功效函数不小于 

1 - d 2 i 

4. 设&，…，和 L ，…，分别是抽自正态总体 iV( a ,ff 2 ) 和 N ( b , 
a 2 ) 的样本, a,6，cx 2 都未知.试仿照两样本 r 检验的做法，构造出原假设 Ho: 
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u = A 的一个水平 a 检验.这里为已知常数. 

5. 利用上题的结果解决如下的检验问 题：设 &，…，总和匕，…， 
分别是抽自正态总体和^/(6，^〗）的样本，〜6,4,4都未知，但比 
值= f 2 已知，要检验原假设 Hq ： « = 6. 

6. 设 A '， ^为抽自具参数 SAi 的指数分布的样本，匕，…，为 
抽自具参数为 A 2 的指数分布的样本.作出原假设 H a : A 1 < A 2 的水平 a 的检 
验. 


7. 设 X M -, X „ 是抽自均匀分布 K (0』） 的样本，给定％>0.作出原假 
设 H 0 ： d ^ d () 的水平 a 检验. 

8. 设 A 、， …，是从有下述密度函数的总体中抽出的 样本： 


f ( 工， d) 


e ~\ xKe 

0 ， x > (9 


- 00 < (9 < 00 


给定常数％.作出原假设 Hq : 9^：6 [) 的水平 a 检验. 

注：第7,8题都需要先由直观出发定出检验统计景，再根据水平 a 定临 
界值. 

9.设 X 为自负二项分布 


Pe(X 二 k 、 二 


r + k — \ 
r _ 1 



pY ， 


k 二 0，1，2,…； 0 < 6 < \ 
中抽出的样本.给定％，0<知<1.找原假设 Hotd ^ do 的水平 a 检验.如要 
求水平严格地为 a ，如何实行随机化？ 

10. 在上题中，如果设3有先验分布尺（0，1)，求该题中原假设的贝 
叶斯检验. 

11. 在第7题中，如果设6有先验分布尺 （0， a )( a 已知且《 >6^) .试求 
该题中原假设的贝叶斯检验. 

12. 事件 A 在一试验中发生的概率记为/?，为检验原假设 H 0 ： /) < 1 /2 
是否成立，甲、乙二人分别采用下述 做法： 甲重复试验到/ V 第9次出现时停 
止，乙重复试验到 A 第3次出现时停止，两人都在做完第12次试验时，结束 
试验，取检验水平 a -0.05. 问： 甲乙两人分別从其试验结果中作出何种结 
论？你从本题结果得到什么启发？ 

13. 设样本 X 〜 H G ： p { = />2 、设 
〜和？ i 2 都充分大，试作出 Ho 的水平 a 的大样本检验. 

14. 设样本 X 服从波哇松分布 P ( A ). ( a ) 试用中心极限定理证明：当入 
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今 


oo 时有 


(x - a)//a ― Mo ， i ) 

(匕)设 A n 充分大.用 （ a ) 的结果，作出原假设 H 0 ：A = A 0 的水平《大样本检 
验. 

15. 在 5.2 节 5.2.4 段“定数截尾”检验中，我们定义了检验统计量 T 
(见 （2.34) 式），并曾指出2义了~;^~这个结果直接证明较繁，但用下面的归 
纳法容易证明，试完成以下步骤. 

1°当 r = l 时，这结果成立.为此注意到当 r - 1时 ，了 '就是而 Yi = 
min ( X [). 用第二章22题及 f(x ) 二 Ae _ ，/ >0,当 时 /( jt ) 二 
0,易求出 h 之分布，因而求出了的分布.由此算出 2 AT 有密度函数 

士^ 2( 当了>0,下同 ；) ，此即的密度. 

2°设 r = k 时结果成立（归纳假设），要证明当 r^k + \ 时结果也成立. 
为此，分别用7；和记当 r = k 和/* =々+ 1时的 r 值，而分析一下二者 
的关系，如右图 5. 6,分别显示出 n 个元件依次失效时的寿命 h ，…， IV 并 
为方便计，把 R 和 \ + 1 分别记为 a 和6.从图上明显 看出： 

T^+l = T k ^ (n - k)(b - a) (1) 

6 - a 是什么？就是从时刻 a 起算，当时尚未失 

y 

效的 A 个元件中最早失效的那个元件的失 ： nJr 2 
效时间（以 a 为0点的时间！）.这样一来 u - 
々）（6 - a ) 不是别的，正是 n — k 个指数分布变 
量的最小值乘以个数 7 Z - 々（这里用了指数分布 
的无后效性：当一个元件在时刻 a 尚未失效时， 

其以 a 为起点以后的寿命，仍服从原来的指数 图 5 . 6 

分布.见第二章例 1.7) .根据1°中已证的， 2 A (« 

- 々 ）（a -6) 〜另外， （1) 式右边两项有独立性.这也是根据指数分布无后 
效性的考虑，而根据归纳假设， 2 A 乃〜故由卡方分布性质，知 2 A 7 V U 〜 
+ 这完成了归纳证明. 

这也是一种概率方法——不是单凭分析计算，且利用概率的考虑.它不 
仅简化了证明，也使我们明白了为什么有这个结果的道理所在. 

16. 设变量 X 取1，2,3,4等值.有一种理论认为， X 取这4个值的概率 
呈等比级数，即 

P(X ^2)/P(X = ]) 二 P(X = 3)/P(X - 2) 
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- P(X = 4)/ P(X - 3) 

为验证此理论是否正确，对 X 进行 《 次观察，发现 X 取1，2,3,4为值分别有 

次.试作拟合优度检验，描述步骤即可以，不必去解方程. 

17. 为检验变量 X 的分布是否为指数分布（参数 A 未知），选择适当常 
数 a >0 及自然数 A ， 把区间[0, °°) 分成々+ 1份 ： /i = [0, a) , I 2 ~ [a ,2a ) , 
…， A = [O - l ) a ，如 ）， A + 丨二 |> a ， oo ), 用 5.3 节 5.3.4 段的方法作拟合优 
度检验，包括该处所介绍的估计未知参数的方法去估计 A . 以 n 记观察次数， 

，《2 ,…，〜 t 1分别记这 n 个观察值中落人/! , i 2 , …，4 + 1中的个数. 

18. 证明四格表的公式 （3.16). 

19. 对由本章 (3.2) 式定义的拟合优度统计量 Z ， 我们有定理 3.1: 在原 
假设下 Z — 以―！当.此定理未予证明，但我们可以得出若干侧证： 

r 在原假设成立时 e ⑵ =々 - 〗，与的均值 一致； 
r 在原假设成立时， Var ( Z ) 也可以算出来，从其表达式易看出： Var ( Z ) 
— 2(々 -1) 当 《 — 即收敛于以―:之方差. 

1° 很容易，请读者证明 .2° 很繁但不难，请读者指出计算 VarU) 的详细 
步骤，如能坚持算出结果当然很好. 

20•(此题用到附录 A 的方法） 

r 考虑 5.2 节 5.2.5 段的检验问题1。.证 明：由 （2.38) 定义的检验 f (选 
择其中的 C 使检验水平为 《) 是水平《的一致最优检验， 

2$虑 5.2 节 5.2.6 段的检验问题 1°. 证 明：由 （2.47) 定义的检验 f (选 
择其中的 C 使检验水平为 a ) 是水平^的一致最优检验. 
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第六章回归、相关与方差分析 

6.1 回归分析基本概念 

本章所要讨论的题目都是在数理统计学中应用很广泛的分 
支.它们有一个共同点，即都是研究变量之间的关系.这些变量可 
以是随机的，也可以是非随机（可以理解为能由人所控制）的，但不 
能全部为非随机的.它们的不同之处在 于：回 归分析着重在寻求变 
量之间近似的函数关系，相关分析则不着重这种关系，而致力于寻 
求一些数量性的指标，以刻画有关变量之间关系深浅的程度.第三 
章中讨论过的相关系数，就是这样的一个指标.方差分析着重考虑 
一个或一些变量对一特定变量的影响有无及大小，由于其方法是 
基于样本方差的分解，故得名.以上只是一个很一般的描述，在以 
后的叙述中将加以充实和确切化. 

我们先来谈回归分析.“回归”一词的来由将在后面加以解释, 
在现实世界中存在着大量这样的情况 :两个 或多个变量之间有一 
些联系，但没有确切到可以严格决定的程度.例如，人的身高 x 和 
体重 y 有联系，一般表现为 x 大时， y 也倾向于大，但由 x 并不 
能严格地决定—种农作物的亩产量 y 与其播种量 Xt ，施肥量 
x 2 有联系，但不能严格决定工业产品的质量指标 y 

与工艺参数和配方等有联系，但后者也不能严格决定 y . 

在以上诸例及类似的例子中， y 通常称为因变量或预报量， 
X , Xi ， X 2 等则称为自变量或预报因子.因变量自变量的称呼借 
用自函数关系，它不十分妥贴，因为，有时变量间并无明显的因果 
关系存在，例如，不好说一个人的身高是因体重是果，因为你也可 
以反过来说，该人身高是因其体重大.预报量与预报因子的名称来 
源于实际.因为在应用中，多是借助于一些变量之值去预测另一些 




变量之值.比如说，用播种量和施肥量去预测产量.这名称也非十 
分完善，因为在回归分析的某些应用中，并无预报的含义.迄今为 
止，对 X ( 或… ）） 和 Y 并无一种一致采用或公认为妥贴的 
称呼，为简单计，今后我们将固定使用自变量和因变量这一对名 
词. 

为什么由等不能严格决定 Y ? 理由很清楚.拿农作 
物那个例子来说，影响产量 Y 的因素（变量）很多，远不止播种量 
A ^ i 和施肥量 X 2 二者，其他如灌溉情况，气温变化情况，灾害（病 

虫害、风灾之类），都影响到这些因素中，有可以人为控制的 

(如已考虑的 X ! ， X 2 )， 有原则上可控但因技术、经济力量不及，或 

研究工作目标有限未予控制的，还有一大批难于控制的随机因素. 

因此，已考虑的因素 X l ? X 2 只能在一定程度上决定产量 Y ， 其余 

则委之于随机误差.因此，在回归分析中，因变量总是看作为随机 

变量.至于自变量则情况较复杂 ：有随 机的，如人的身高体重那个 

例子，不是给定身高去测体重，而是随机地抽出一个人，同时测其 

身高体重，故二者都是随机变量.也有非随机的，农作物例中的播 

种量和施肥量即是，它们的取值可以由人控制，从数理统计学的理 

论上说这二者有差别.但从实用上说，人们往往把随机自变量当作 

非随机去处理，但对结果的解释要小心，以后再谈.在本章 6.2 和 

6. 3这两节中，除有特别声明，我们将一律把自变量视为非随机 
的. 

现设在一个问题中有因变量 Y ， 及自变量 X !，…，\.可以设 
想 Y 的值由两部分构 成：一 部分由 X '，…， x p 的影响所致，这一 
部分表为&，_••，&的函数形式 /( A ，…，％).另一部分则由其 
他众多未加考虑的因素，包括随机因素的影响所致，它可视为一种 
随机误差，记为于是得到模型： 

Y = f(X l 9 -,X p )^e 

e 作为随机误差，我们要求其均值为0: 

E ( e ) = 0 

于是 得到: /(& ，…，\)就是在给定了自变量 X u …， X p 之值的 
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条件下，因变量 Y 的条件期望值.可 写为+ 

/(&，•••，&) = E ( Y \ X ^-, X p ) 

函数 /( U ， …， x p ) 称为^对；^，…，心的“回归函数”，而方程 

：V 二 f{x\ ， " ，， Xp) 

则称为 y 对入 i ，…，七的“回归方程”.有时在回归函数和回归方 
程之前加上“理论”二字，以表明它是直接来自模型，也可以说是模 
型的一个组成部分，而非由数据估计所得.后者称为“经验回归函 
数”和“经验回归方程”. 

设？为一随机变量，则 E ( e ~ c ) 2 作为 C 的函数，在 C 二 E ( e ) 
处达到最小.由这个性质，可以对理论回归函数/(^，…，％)作下 
面的解 释:如 果我们只掌握了因素 Xi ，…，^，而希望利用它们的 
值以尽可能好地逼近 Y 的值，则在均方误差最小的意义下，以使 
用理论回归函数为最好. 

但在实际问题中，理论回归函数一般总是未知的，统计回归分 
析的任务，就在于根据；^，…，和 y 的观察值，去估计这个函 
数，及讨论与此有关的种种统计推断问题，如假设检验问题和区间 
估计问题.所用的方法，在相当大的程度上取决于模型中的假定， 
也就是对回归函数/及随机误差 e 所作的假定.先说回归函数 /. 
一种情况是对/的数学形式并无特殊的假定，这种情况称为“非 
参数回归”.另一种情况，即目前在应用上最多见的情况，是假定/ 
的数学形式已知，只其中若干个参数未知.例如，户= 2,而已知 
f{ X I , X 2) 形如 


f(xi ,x 2 ) - c { + c 2 e^ x + c 4 \ogj：2 

其中 Cl , ••- , c 4 是未知参数，要通过观察值去估计.这种情况称为 
“参数回归”.其中在应用上最重要且在理论上发展得最完善的特 


* 以往我们定义条件期望时，是假定所有的变量都为随机的.如今自变量 X 1( ***, 
X ,并非随机，故记号 X ,，…，\)只是一种借用.可以简单地理 解为： Y 的分布 
依赖于参数，…， Xp ， 故其期望值也应与，…，有关. 
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例，是 / 为线性函数的 情形： 

f{x\,'-yXp) = 办 0 + &l：Ti 十 . •.十 bpXp 

这种情况叫做“线性回归”，是我们今后讨论的主要对象.线性回归 
的限制看来较强.不过，如果自变量变化的范围不太大，而曲面 :V 
=/(^，…， A ) 弯曲的程度也不过分，则在较小的范围内，它可以 
近似地用一个平面（即线性函数）去代替之，而不致引起过大的误 
差.其次，有些形式上看是非线性的回归函数，可能通过自变量的 
代换转化为线性的，见 6.3 节.因此，线性回归模型有比较大的适 
用面，加之它处理上简便，成为一个极其重要的模型. 

对随机误差 e ， 我们已假定其均值 E ( e ) 二 O.e 的方差 cr 2 是回 
归模型的一重要参数，因为 

= E ( e 2 ) = Var ( e ) - a 2 

愈小，用 /(& ，…，\)逼近 y 所导致的均方误差就愈小，回归 
方程也就愈有用 . fT 2 的大小由什么决定呢？这就在于以下 两点： 

1•在选择自变量时，是否把对因变量 Y 有重要影响的那些 
都收进来了 •如果是这样，则未被考虑的即作为随机误差去处理的 
那些因素，总的起作用就较小，因而 a 2 也就会较小.反之，若遗漏 
了或因条件关系，使某些对 Y 有重要影响的因素未被考虑，则其 
影响进入随机误差^将导致 d 增大. 

2. 回归函数的形状是否选得准.比如，理论回归函数 fU x ， 
…， * r p ) 本是一个非线性函数，而你用一个线性函数 g ( x { , 
心），则二者的差距 f - g 就作为一种误差进入 e 内，而加大了它 
的方差. 

因此在应用上，通过观察数据对误差方差 a 2 作估计，也是很 
重要的.如果估计值很大，超过了该项应用所能承受的范围，则估 
计所得的回归方程意义就不大.在这个时候，就有必要再考虑一下 

自变量的选择是否抓着了主要因素，以及所用的回归方程的形式 
是否太不符合实际. 

如果要处理有关的检验和区间估计问题，比方说，取定了线性 
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回归函数 6 Q + +…+ ，有对未知系数乂等作假设检验和 
区间估计的问题，则只有在假定随机误差^服从正态分布 
N (0, a 2 ) 时，才有满意的小样本方法.因此，在实用回归分析中，常 
假定误差服从正态分布.经验 证明： 对多数应用问题来说，这个假 
定是可以接受的，如果没有这个假定，那就需要使用大样本方法. 

回归分析的应用，可以归纳为以下几方面. 

第一方面是纯描述性的.为简单计， 

以一个自变量 X 的情况为例，因变量总 
记为 Y . 假定在工作中我们经常要记录 
x 和 y 之值（比如说， x 代表月份， y 代 
表该月的产值），而积累了一批数据 （ Xj ， 

Yi ) Ax 2 , y 2 )， …， U „， y „) .把它们标 
在直角坐标系上，称为散点图.这往往是 

杂乱无章的，但仍可能有某种趋势存在.如图 6.1 中的点虽系杂乱 
无章，但大体呈现出一种直线走向的趋势.用回归分析的方法可找 
出一条较好地代表这些点的走向的直线在一定程度上，这条直 
线 I 描述了所观察到的这批数据所遵从的规律，虽不十分准确，但 
有时很有用. 

这种应用之所以称为描述性的，是因为它只是对数据的一种 
“总结”，它只涉及现有数据，不超出其外，用统计的语言说，它并不 
企图对数据 （ Xi ，，…， （ X „ ，所来自的总体作任何推断. 

第二方面是估计回归函数 /. 仍拿人的身高 X 和体重 F 这个 
例子来说，姑且把 X 视为自变量而 Y 为因变量.若假定（ X ， Y ) 服 
从二维正态分布，则如在第二章中已证明的， Y 对 X 的回归函数 
/(X )， 即条件期望 £( Y | X 二: r )， 为 x 的线性函数 心 + hx .如果 

通过样本对和作出了估计 So 和 S 1，则用 bo + b \ jo 去估计 
•在本例中，后者就是在身髙为： c 的人群中的平均体重. 
这在应用上很有意义，因为在不少问题中，我们所关心的正是这个 
平均值•再拿亩产 Y 与播种量^^与施肥量的关系这个例子 
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来说，也许我们所关心的正是在一定播种量 A 和一定施肥量 A 
之下，平均亩产能达到多少.这就是 Y 对；^，1 2 的回归函数 

/( jT ! , X 2 ) - 

第三方面是预测，即在特定的自变量值 （ X 1() ， …， a > Q ) 之下，去 
预测因变量 Y 将取的值：^ .例如，随意碰到 一 个人测出其身高为 
X 0 , 而没有秤其体重或秤了没有把结果告诉你，让你去预测这人 

体重有多少.这与估计身高为〜的人群的平均体重 f ( x 0 ) - 
£( X = Xo ) 不同.后者并非特定的一个身高为的人的体重， 
而是全体这样的人体重的平均值，而预测的对象则是这个特定的 
人的体重•从模型上可以这样看 ：设在 X = 处进行观察，随机 
误差为^0,而 Y 之值为: v () ，则 ^ Vo 二/ (Xo ) + eo . 为 r 预测，需要 
对 /( Xo ) 进行估计，同时也对随机误差值0作估计，把二者相加 
得出：随机误差 o 之值凭机会而定，没有什么好的估计方法， 
只能根据其均值为0这一点，将其值估计为0.于是 y 的预测值就 

取为回归函数 / U ) 在这个点： r 0 处的估计 /( x 0 ). 

由这里得出两条 结论： 一 是预测问题与回归函数问题虽然在 
实质上很不一样（如前面所曾解释的），但二者之解则一样.因为这 
一点，有些著作没有强调这二者的区别所在.二是预测的精度要比 
估计回归函数的精 度差. 因为在预测中，除了估计回归函数有一个 

误差外，还要加上一个随机误差这一点在考虑区间估计时能 
更清楚地看出来. 

第四方面是控制.在这类应用中，不妨把自变量解释为输入 
值，因变量解释为输出值.目标是要把输出值控制在给定的水平 

加.若通过数据估计出了经验回归方程4)，则根据 
这方程可调整自变量 X 】，…， ' 的取值，以达到上述目的.例如， 
自变量 x 是用药量，而 y 是某种生理指标，例如血压，调整用药 
量以使血压达到某种认为是正常的水平. 

我们提一下“回归设计”这个概念.为了估计理论回归函数 
/(々，…， x p )， 需要对自变量和因变量 y 进行观测.有 
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两种情 况：一 是自变量也是随机的，如人的身高体重那个例子，这 
时除了一般地保证抽样的随机性以外，就没有多少可做的事情了. 
例如在一大群人中抽取若干以量测其身高体重，则只须尽力保证 
人群中的每一个有同等的被抽出的机会. 

另一种情况是自变量是非随机的，其取值在一定限度内可由 
人去控制.这时，为保证取得最大的效果，应对自变量在各次试验 
中所取的值进行适当的规划.例如，若在将来的应用中自变量多取 
某区域 S 上之值，则在进行试验时就要让自变量多在这个范围内 
取值.也可以设想，试验点在空间的排列可能需要有某种对称性， 
以便于统计分析•这些问题的研究构成了回归分析的一个分支，叫 
做回归设计，它也可以看作是试验设计这个统计学分支的一个组 
成部分，本章将不讨论这方面的问题. 


最后我们来解释一下“回归”这名称的由来.这个术语是英国 
生物学家兼统计学家 F . 高尔顿在1886年左右提出来的.人们大 
概都注意到，子代的身高与其父母之身高有关.高尔顿以父母之平 
均身高 X 作为自变量，某成年子女身高的平均 Y 为因变量，他观 
察了 1074对父母及某成年子女身高的平均，将所得（ X ， Y ) 值标 
在直角坐标系上，发现二者的关系近乎一条直线，有如图 6.1 .总 
的趋势是 X 增加时 Y 倾向于增加——这是意料中的结果，有意思 
的是，高尔顿对所得数据作了深人一层的考察，而发现了某种有趣 
的现象. 

高尔顿算出这1074个 X 值的算术平均为 X 二68英寸 （1 英 
寸为 2.54 厘米），而1074个 V 7 值的算术平均为7 = 69 英寸，子代 
身高平均说增加了 1英寸，这个趋势现今人们也已注意到.以此为 
据，人们可能会这样 推想： 如果父母平均身高为 a 英寸，则这些父 
母的子代平均身高，应为 a + 1英寸，即比父代多1英寸.但高尔 
顿观察的结果与此 不符: 他发现 ：当父 母平均身高为 72 英寸时，他 
们的子代身高平均只有71英寸，不仅达不到预计的 72+ 1二 73 英 
寸，反而比父母平均身高小了 .反之，若父母平均身高为 64 英寸， 
则观察数据显示子代平均身高为 67 英寸，比预计的 64 + 1 = 65 英 
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寸要多. 

高尔顿对此的解释是 :大自 然有一种约束机制，使人类身高分 
布保持某种稳定形态而不作两极分化.这就是一种使身高“回归于 
中心”的作用.例如，父母身高平均为72英寸，比他们这一代平均 
身高68英寸高出许多，“回归于中心”的力量把他们子代的身高拉 
回来一些:其平均只有71英寸，反比父母平均身高小，但仍超过子 
代全体平均69英寸.反之，当父母平均身高只有64英寸——远低 
于他们这一代的平均值68,而“回归于中心”的力量将其子代身高 
拉回去一些,其平均值达到67,增长了 3英寸，但仍低于子代全体 
平均值 69. 

正是通过这个例子，高尔顿引入了回归这个名词.现在我们觉 
得，高尔顿的例子只反映了变量关系中的一种情况，在其他涉及变 
量关系的众多情况中，多不必如此，故拿这个名称作为变量关系统 
计分析的称呼，实不见得恰当.但这个名词现今已沿用成习，如硬 
要改变，反觉多此一举了. 

6.2 —^兀线性回归 

本章我们只讨论回归函数为线性函数的情形(包括能转化为 
线性函数的情形) —— 称为线性回归.我们从只含一个自变量 x 
(因变量总是一个，记为 Y ) 的情况开始，称为一元线性回归.这个 
情况在数学上的处理足够简单，便于对回归分析的一些概念作进 
一步的说明.这样，假定回归模型为 

V = + b\X + e (2.1) 

其中 b 0 , b l 为未知参数.心称为常数项或截距，心则称为回归系 
数，或更确切地，称为 y 对 x 的回归系数^为随机误差，如在 6.1 
节中已解释过的，假定 

E ( e ) = 0,0 < Var ( e ) = cr 2 < oo (2.2) 

误差方差 a 2 未知，在 6.1 节中我们曾解释过这个参数的意义及其 
重要性. 
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现设对模型 （2.1) 中的变量 X ， Y 进行了 k 次独立观察，得样 
本 

(&， Y 2 )， …， （ U „) (2.3) 

据(2.1)，这样本的构造可由方程 

Yi = + biX , + e t ，i = l，".，？z (2.4) 

来描述.这里是第2次观察时随机误差^所取之值，它是不能 
观察的.由于各次观察独立及 (2.2) 对随机变量 q ，。， …，^， 有： 
e \ ，…， e n 独立同分布， 

E ( e t ) - CKVar ^) = a 2 - 1 ，•••，?？ (2.5) 

以后我们还将进一步要求 e , 遵从正态分布. 

(2.4) 与 （2.5) 结合，给出了样本 （2.3) 的概率性质.它是对理 
论模型 (2.1) 进行统计分析推断的依据.以此之故，在统计学著作 
中，往往更着重 (2.4) + (2. 5)，把它称为一元线性回归模型，而理 
论模型 （2.1) 只起一个背景的作用.当然，理解 （2.4) 和 （2.5) 是以 
理解 (2.1) 为基础的. 

以上的叙述是假定，回归函数已依据某种考虑选定了——在 
此选为线性形式.在实际工作中，这当然是一个要研究的问题.在 
某种稀少的场合下，回归函数的形式可稂据某种理论上的结果给 
出.例如，从物理学知道，在一定温度（ X )的范围内，一条金属杆之 
长 （ Y ) 大体上为 X 的线性函数.这时选择线性回归有充分根据. 
在多数应用问题中，不存在这样充分的理论根据，而在很大的程度 
上要依靠数据本身.例如，若数据 (2.3) 的散点图呈图 6.1 的形状， 
则选取线性回归函数似是妥当的.反之，若散点图呈现图 6.2( a ) 
或6 .2( b ) 的形状，则回归函数似以取为二次多项式或指数函数为 
宜•在实际工作中，也常使用变量变换法.即在散点图与直线趋势 
差距较大时，设法对自变量以至因变量进行适当的变换，使变换后 
的散点图更接近于直线，这样就可以对变换后的新变量进行线性 
回归分析，再回到原变量.在一元的情况，由于散点图可资参考，在 
回归函数的选择上就有较大的操作余地.对多元（多个自变量）的 
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情况，问题就麻烦得多，选择余地也较小. 



图 6.2 

交 代了这些之后，我们回到起先的出发点—— (2.4) 和 (2.5). 
今 后总用 X 和 Y 分别记又和 K 的算术 平均. 以前我们曾 指出: 

把自变量 X 视为非随机的，故&，…，，以及兄就简单地是已 
知常数.因此，可以把模型\2. 4) 改写为 

y ： 二 A) + (^(Xi - X) + e" i 二 1，"•，” (2.6) 

其关系是： 

Pi 二， A ) = + b'X (2.7) 

故如估计出了汍和仏，则由 （2.7) 就得 到心和 ~的估计.改写为 
(2.6) 的好处将在以后见到.这里注意到一点，即的后的因子 

X - X 对； 二1，…，72求和为0•故把 （2.4) 改写为 (2.6) 有时称为 
模型的“中心化”. 

6.2.1 队和 仏的点估计——最小二乘法 

现在我们要在模型 （2,6) 和 (2.5) 之下，利用数据 (2.3) 去估计 
A ) 和 . 假定我们用0：0和 CTi 去估计 A ) 和 /?1 . 我们要定出一个准 
则，以衡量由此所导致的偏差.我们从预测的眼光来看这个问题， 
如用 Co 和 q ，则回归函数汍+妁 U - X ) 将用 ao + a ^ x - X )* 
估计之.利用它在\点作预测，结果为 

~ a 0 + - X ), i - 1 ,•** , n (2.8) 
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但我们已实际观察 到：在 乂 =又处¥之取值为 y t ，这样就有偏离 


匕 - i ^ w _ = i ， …，^我们当然希望这些偏离愈小愈 好：衡 量这些 

偏离大小的一个合理的单一指标为它们的平方和（通过平方去掉 
符号的影响，若简单求和，则正负偏离抵消 了）： 


Q (« 




l](y, - y ? ) 2 = S [ y, - a 0 - ㈦ (& — 又 )] 2 

/ 二 l / 二1 


(2.9) 

由此考虑得出以下的估计法则：找之值，使 ( 2 . 9 ) 达到最小， 
以之作为的估计.利用多元函数求极值的方法，这只要解方 
程组 


d Q 

a % 


n 

- „ 2 ( Y z - a 0 - a ! ( X, ~ X )) = 0 

r = 1 


( 2 . 10 ) 


= — 2 S ( X ,- - X )[ Y i - a 0 - a l ( X l - X )] - 0 

以 U 丨 /-I 

( 2 . 11 ) 

由 （2.10) 解出 叫 ，将解代入 (2.11)， 解出^，我们将这解分别记为 

h ( 2 . 12 ) 

h : i(x t - X)(y,~ y)/V(x ; - x ) 2 

f’ 二 1 / — t 

二 Su. - x)y I /E(x i - x ) 2 (2.13) 

“使 (2.9) 达到最小”这个估计方法，称为“最小二乘法”，这个重要 
的方法一般归功于德国大数学家高斯在 1799—1809 年间的工 
作* •这个方法在数理统计学中有广泛的应用.其好处之一在于计 
算简便，且如我们即将看到的，这方法导出的估计颇有些良好的性 


" 法国数学家勒让德于1805年发表 f 这个方法■高斯声称在1799年开始使用这 
个方法，但见诸文字是1809年. 
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质.其中之一是，如从公式 （2.12) 和 （2.13) 看到的，估计量 反和 

^ 都是 A ，…，的线性函数，即形如 q 匕+… + r 7m Y „ 的函 

数，其中 (: d ，…， 都是常数' 

利用模型的假定 (2. 6)， （2. 5)，从公式 (2.12) 和 （2.13) 很容易 

推岀最小二乘估计反和瓦的一些 性质： 

1 •心和 A 分别是 A ) 和 A 的无偏估计. 

事实上，由 （2.6) 和 （2.5) ，知 £( D 二办+夕 】（X - X ).故 

Ed ) =~ tFAY { ) = [A + AU ,- 又] = A) 

n /-L H 1 

E(h) - E(x f - X)E(y / )/E(X ; - X) 2 

1 l--\ 

— ~ 幻 [A) + ( x t — x) ]/2 (Xi — x) 2 

卜 1 / = l 

2.h 和心的方差分 别为： 

Var (為 0 ) = ^ 2 Var( Y t ) ^ no 1 /?% 1 ^ a 1 /n (2.14) 

n i-x 

Var (^) 二 SU, - X) 2 Var( Y ,) / [ S (X, - X) 2 ] 2 

，二 1 

二。 1 丨立 、 Uf (2.15) 

/ = 1 

这里用到了 Y lf -' 9 Y n 独立， Var(cY z ) = c 2 Var( Y ; ) ， Var( c + e:) 
二 Var (^) 二 a 2 ，c 为常数.从 （2.15) 式我们得到一点启发.在第四 


* 对/9〗而言，系数〜〗，…，与样本值:，…，有关.但此处我们把 X 视为非 

随机的，因此它不影响 c Kl ， …，为常数这个论断.若 X 也是随机变量，则情况就变得 
复杂. 
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章中我们已论述过，在无偏估计中，方差小者为优，如今为无偏 
估计而其方差与 


s 2 . = S(x, - X) 2 (2.16) 

/' - 1 

成反比，故 si 愈大愈好.而要 Si 大，样本点 Xi ，…， x „ 必须尽量 
散开一些.这意味着当X之取值可以由我们选定时，我们不应把 
它们取在一小范围内，而最好让它们跨越较大之范围.当然，这也 
要有个限度，不要把试验点取到没有实用意义的区域内去.因为范 
围过大，线性回归与实际回归函数的差距会增加. 

3. A 和 A 的协方差为0: 

Cov { U ) 二0 (2.17) 

事实上，》 0 -£(汍) 二 J ( Y t ~ EY t )/ n ^ S (d 0 -AU ■- 

i — 1 i - 1 

n 

X))/n- 2 々/«，而 

i 二 1 

h- Eh 二 -X)(y, 

/ = 1 i = 1 

=S(x z -x)^-/X；(^ -x) 2 

于是，利用 E ( e 約）二 EUjEU ^ O 当 /<；，而 £(4) = VarU) 
= C7 2 , 得 

Cov(H ) 二 E [( 吾 o - 胡 o)(》i - E^i)' 

= n ~ l [Yl - ^) 2 ]' 1 ^ 2 !] -x) = o 


这个性质指出 jo 和_良不相关（见第三章，定理 3.2 下面的 
说明）.它显示了中心化的好 处：如 果考虑原模型 （2.1) 中参数6 0 , 

b x 的最小二乘估计(见下），则二者并非不相关. 
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由&和 A 不相关一般不能推出它们独立（第三章例 3.1). 
但是，如果 ei ，…， 服从正态分布，则也服从正态分 

布和瓦作为 A ，…， Y , 的线性函数，也服从正态分布1第二 

章例 4.8) .因此在这种情况下，由，瓦不相关可推出它们独立 
(见第三章 2.3 节末尾）. 

由汍，灼的最小二乘估计^)，^，通过变换 （2. 7)，即得模型 
(2 J ) 中的的最小二乘估计分别为 

h = k、- S x X ^Y~ 二 (2.18) 

它们分别是和心的无偏估计.利用上述 U 的方差协方差 

公式，不难算出 b ^ b x 的方差和 h 及 h x 的协方差，细节留给 
读者. 

h ， h 还有些更深刻的性质.例如，若误差服从正态分布，则 

它们分别是九和 A 的最小方差无偏估计（见 4.3 节）.这个事实 
的证明超出本书范围之外. 

6.2.2 残差与误差和方差 a 2 的估计 

仍以&和瓦记汍和仏的最小二乘估计.则在 x = 又.处， 

因变量 Y 的预测值为 fv=h +》 i ( X ： - X )， 而 Y 的实际观察值 
为 Y ,., 二者之差 

= y t - % ， i : 1 ，"_,?， ( 2 . 19 ) 

称为“ 残差' 

残差的作用 有二： 一是当模型正确时， g | I (2.5) 和 （2.6) 正确 


-史确切地，…的联合分布为二维正态分布. 




时，它可以提供误差方差 a 2 之一估计.理由很清 楚：用 预测 
y ; ， 其精度取决于随机误差的大小，即误差方差的大小，误差方差 


愈大，预测愈不易准确，而残差（绝对值）就倾向于取大值,反之则 
倾向于取小值.往下我们证明 


a 



是 y 的一个无偏估计. 

为证明这个事实，注意 


( 2 . 20 ) 


~ + Ad - X) + €i -負 o — ^i(X,- - X) 

以及 

= - A) - 士 S(A) 十 ^i(x, - X) + e t ) 二 一 F 

77 /-I 

其中 + …。 ）/ t 7 ，而 

!h h 

二 ft _ S(X, -X )(/? 0 + ^(X, -X) + e^/f^CX.-X ) 2 

j 二 1 > - 1 

- _ S - x)e } j X) - x) z 

7 = 1 厂二 1 

故 


沒 , =q - F — (X t ~X)^(X 3 ~X) ej j ~X ) 2 

平方，对 i = U …，打 求和，注意 

S ； (x £ - -x)E(x, ~x)^/E(x, -x) 2 ] 2 

，二 1 7 = 1 y=l 

=( S ( x ^ x ), ; )7 S ( x ,- x ^ 

: i j =i 

Du •- m - x) - S(x ( - x)^. 

足二 1 i ~ I 


即得 
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= 2 ( e : , - f ) 2 - (2 d - x) 。 公 ( 入〜 -x) 2 

，二 1 / = 1 i - 1 ^'= 1 

( 2 . 21 ) 

因为 e { ，…， e n 独立同分布，有均值 0 方差 ^ 2 , 故据第四章例 3.2. 
及第三章 (2.2) 式，有 

E ( ( g ,- - 7 ) 2 )二 （” - l ) a 2 

i - 1 

£：(E(X, - X)^.) 2 = Var(2Ur 又 )q) 

z 二 1 

= 2(X ; - -X) 2 Var(^) 

，- 1 

- a 2 ^(X l —X) 2 

7 - \ 

以此代人 (2.21)， 即得 

(n - 2 ) a 2 

{ 

于是证明了 5 2 为 ^ 的无偏估计. 

i 矜称为残差平方和.其一重要性质 是：当 ^服从正态分布 
/二 1 

N(0，a 2 ) 时，有 

公努 Ax 2 〜 (2.22) 
/ 二1 

证明见本章附录 A . 注意自由度2,它比样本大小《少2.这是 
因为有两个未知参数汍和 A 需要估计，用掉了两个自由度（参看 
第四章例 3.2 末尾处的说明）. 

残差平方和有下述便于计算的表 达式： 

S ^7 = S ( ^ - Y) 2 - £ (X, - X) Y, 

/ I i - 1 / 二 1 

二 _ - nf 2 - X ) Y , (2.23) 

i — 1 i - 1 
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此式之方便在于.•在计算残差平方和时，一般已先算出了回归系数 

n 

妁的 估计瓦 及而在算 A 时，需要算出-又） k ，故只 

r = l 

须再计算平方和 S y ? 即可 .（2.23) 式证明 如下： 

i = 1 

S 朽 = S ( y , - y -^ cx , - x )) 2 

i—i ，一 i 

n 

= V(y z - y)2 -2A + B 

i — 1 

其中 s = 射 Eu z - 又 ) 2 二》 JASu : ~ x ) 2 ) = h ^( x l ~ 

i =- 1 - 1 ，■二 1 

x)y, ,M 


A - T i (X l ~X)(Y i -Y)^ i = h^(X 1 -X)Y 1 

i = 1 / 二 1 

于是得到 (2.23) 第一'式.由此得出第二式. 

残差的另一方面的作用是用以考察模 
型中的假定（即 （2.5) 和 （2.6)) 是否正确. 

道理如下 ：因为 在模型正确时，残差是误差 
的一种反映，因误差 e \ , , e n 为独立同分 

布，具有“杂乱无章”的性质，即不应呈现任 
何规律性.因此，残差 、，…， S n 也应如此. 

如果残差茂丨 ，•“ ，心呈现出某种规律性，则 图 6.3 

可能是模型中某方面假定与事实不符的征 
兆.例如，若 随着& 增大 | 表 | 有上升的趋势，这可能反映模型 
(2.1) 中误差 e 的方差与 X 之值有关且随 X 之值上升而增加.又 
如，设想回归函数为二次函数，则由图 6.3( / 为经验回归直线）可 
看出 ，当又 很大或很小时，在取正号，而当为中间值时，&取 
负号.如出现这种情况，就可以怀疑线性假定有问题. 

这种通过残差去考察回归模型是否正确的作法，叫做“回归诊 
断' 它已发展为回归分析的一个分支.本书不能仔细讨论这方面 
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的问题，有兴趣的读者可参考陈希孺、王松桂著《近代回归分析》第 
二章，及张启锐著《实用回归 分析》 第四章. 

6.2.3 区间估计和预测 

本段我们在 （2.5) 和 （2.6) 的基础上加上假定 ：误差 e 服从正 
态分布，因此，现在 (2 j ) 强化为 

e t 9 e 2 ,'-, e n 独立同分布 .— N (0, a 2 ) (2.24) 

先考虑前已指出，它是 Yi ，…，八的线性函数，有均值的 
方差 a 2 S ~ 2 9 Sl 见 (2.16) 式，因此 

( hhMSS ; 1 ) 〜 N (0，1) (2.25) 

这个结果尚不能用于 A 的区间估计，因为^未知，按 6.2.2 的结 

果，以 5( 见 2.20) 代替 (2.25) 中的 a . 可以证明，经过这一代替，正 
态分布变为 t 分布（证明见附录 B ) 

(h ~^) AdS ~ x ) - t n .. 2 (2.26) 

这个结果就可以用来作 A 的区间估计或置信上、下界，因为 （& - 

A VGS ; 1 ) 起了枢轴变量的作用，按 4.4 节中的方法， 得到： 

1. 置信系数为 1- «的的的置信区间，为 

[吾 1 _ 5 S ； [ t n - 2 ( a /2) + aS ； l t n . 2 ( a / 2)] 

2. 置信系数为 1- a 的 g 的置信上、下界，分别为 

h + 2 ( a ) 和 & - $ S ； l t n . 2 ( a ) 

对截距 A ) 也一样做，也可以由下文对回归 函数汍 + 爲 （i - 又)的 
区间估计中，令 x 二 X 得到. 

对回归函数 + 又），其点估计 m ( x ) = ^ 0 + 

A (: r - X ) 也是，…， Y „ 的线性函数，因此在 （2.24) 的假定下， 

它也服从正态分布，其均值为 m (: r ), 而其 方差； l (： r )， 根据 
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(2.24)，（2.25)，及 A 与 A 独立，为 

X(x) =Var(3o) + (X - X) 2 Var(^i) 

^ a 2 ( l/n + (x - X ) 2 / S 2 Z ) 

于是得到 （A ( X ) — /" ( X ) ) /\f X ( X ) 〜 iV (0,1). 3 代 (7, 可以证明 

{ m { x ) - m { x ))/{ d{\/n + (x — X ) 2 / S 2 r ) ]/2 ) — t n -i 

(2.27) 

由此 得出： 

1. 置信系数为1 - cr 的 w ( x ) 的置信区间为 

[ mix ) - a ( l/n + (x ~ X ) 2 / S 2 , y /2 t n - 2 ( a /2) 

in { x ) + a { \/n + {x - X } 2 / S 2 l .) l /2 t n - 2(a / 2)] 

2. 置信系数为 1 - a 的 m ( x ) 的置信上下界，分别为 rh { x ) ± 
吝 （1 Az + (工 — X ) 2 / S 2 r ) 1/2 ?„— 2 ( a )( + 号为上界）. 

这个区间之长 25(1/?? + U - X ) 2 / S ]) 1/2 ~„ 2 ( a /2) 与 t 有 

关愈接近 X 样本的中心 X ，则 （x - X ) 2 愈小而区间长度就愈 
小.就是说，在估计回归函数 m ( x ) 时，愈靠近样本 X 中心点处愈 
精确.这从理论上指明了我们在前面提到过的一点事 实：当 我们需 
要在自变量 X 的某个范围内使用回归方程时，应当把观察点入、， 
…，尤尽量取在这个范围内.如 
图6.4，/为由样本点配出的经验 
回归直线， / i 和/ 2 分别是 m ( x ) 

的置信区间上、下端随： r 变化时 
划出的曲线.在 x 轴上的 X 附近 
zr 和（ 2 相距较近，而当 x 离 x 

愈远时，曲线愈分开.如图，在 ： T 
轴的: r Q 处， A 点的纵坐标是回 

归函数 mUO 的点估计 m ( x 0 ), 

而 A 1， A 2 点的纵坐标，则分别是 



图 6.4 
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w ( xe ) 的置信区间的上、下两端点.曲线 l \， h 只能在这个意义上 
去理解，而不能说，“理论回归直线落在/ 1 ，/ 2 之间”的概率为1- 
a . 因为，理论回归直线落在 h ， l 2 之间，相当于说对一切： r a 同时 
成立： mUo ) 落在通过&与纵轴平行的直线在 l x J 2 截出的两点 
的纵坐标之间' 

下面来考察 Y 的区间预报.假定要在自变量 X 的给定值 xo 

处预报 Y 之值 IV 前已说过（见 6.1 节），就用 A ( x Q ) 作为％的 

预报值.考虑差7/= A - A ( x D ) .它是 ，…， 和 Yo 的线性函 

数，故仍为正态分布.因 £：( Y 0 ) = m ( x 0 ), E [ m ( x 0 )]= m ( x 0 ), 
有 E (7) = 0.为考虑其方差，注意 y 1? Y n 和 Yo 独立，故 

mUo ) 与 y 0 也独立，因此有 

Var(^) = Var( Y 0 ) + Var(m(x 0 )) 

= a 2 {\ + \/n + (x - X) 2 /S 2 X ) 

仿以前的做法，用 a 的估计值 f 代替得 

rj /(3(1 + l/n + (x — X) 2 /S 2 J】 /2 ) 〜 广 „ 一 2 
于是 得到： 不等式 


^(x 0 ) -5(1 + l/n + (x ~X) 2 /Sl) x/1 t n J~\^ y 0 


2 

(2.28) 

其左右两端(所构造的区间）就是 Yo 的置信系数为1 - a 的区间 
预测•应注意的是 ：与以 前我们讲过的区间估计不同，此处的 Y q 
并不是一个未知的参数，其本身也有随机性. 


" 理论上可以证 明：把 6,^2之间夹出的区域放大一点，即把6往上推一点，/ 2 往 

下推一点，就可以满足这要求，具体说，应以方程为 + 

(2 F 2 ，„_ 2 ( cO ) 士的曲线代替 为+号）.由第二章习题29可知，这个范围比 

(2.28) 规定的范围宽一些， 


< m(x 0 ) + ?(1 + l/n + (x - X) 2 /SiV'- 2 ( 
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比较 (2.27) 和 (2.28)， 我们看出 m (: r a ) 的区间估计与 y 0 的 


区间预测的另一点不同之 处：州 Cq) 的区间估计之长为 25(1/^ 

十（: T — X ) 2 /S^. 2(Q：/2) •当" 很大时， 5 接近于 CT , t n ~2 

U/2) 接近 Wa/2 ，这两部分保持有界，另一个因子中，14^0.另 
一个因子，只要试验点 X n 不过分集中于一处，以使 

X1(X, - X) 2 -oo ，就可以证明（: r-X) 2 /Si-M) (习题 5(b)), 这 

i - 1 

样，上述区间之长将随 — ⑺而趋于 0. Y q 的区间预测则不然， 

其长度表达式中含因子 （1 + 1A Z + u-x)v 筘） 1/2 •随着 "一 
oo ，其值总大于1，故不论你有多少样本，区间预测的精度仍有一 
个界限.这个道理我们在前面已解释过 ：预测 问题中包含了一个无 
法克服的随机误差项. 


6.2.4 假设检验 


最有兴趣的假设检验问题是 :检验 原假设 

Ho：/?! - C (2.29) 

其中 c 是一个给定的常数，对立假设为 H 0 ：^ c . 尤其是 c =0的 
情况.因为， A 二0表示回归函数 wU) 为一常数汍，与： r 无关.如 
果被接受了，则意味着我们接受如下的说 法：所 选定的 
自变量 x 其实对因变量 y 无影响，故研究二者之间的关系也就没 
有意义了. 

V 

(2.29) 的检验很容易利用 (2.26) 作出： 

9 '^\h ~ c \^ aSj n ^ z ( a /2 ) 时接受 不然就否定 

(2.30) 

这个检验 p 有水平 a . 单边假设或的检验也类似地 
作出. 


" 由于^是随机的，它只是在“依概率收敛”的意义上接近 CT ， 故^也有很小的可能 
性远远偏离 (7, 甚至变得很大.只是当《很大时这种机会很小， 

• 299 • 




对截距 /?0 的检验也类似地作出.例如，沐 )= 0 的假设意味着 

回归直线通过原点，我们把细节留给读者. 

例 1.1 从某大学男生中随机抽取10名，测得其身高（米）和 
体重（公斤）的数值为 

(1.71,65),(1.63,63),(1.84,70),(1.90,75),(1.58,60) 
(1.60,55),(1.75,64),(1.78,69),(1.80,65),(1.64,58) 
以身高 X 为自变量，并把它看成非随机的，而以体重 y 为因变 
量.假定回归为线性的.算出 

X -(1.71 + 1‘63 + …+ 1.64)/10 二 1.723 
Y 二 （65 + 63 + …+ 58)/10 二 64.4 
Si - =(1.71 — 1.723) 2 + …十 (1.64 - 1.723) 2 
= 0.1062 


10 

- X)y, = (1.71 - 1.723) X 65 + … 

/-I 

+ (1.64 — 1.723) x 58二 5.268 
由 （2. 12)， (2 .13)，得出 A ) 和灼的最小二乘估计值分别为 

- 64.4,^ = 5.268/0.1062 = 49.6 
经验回归方程为 

y 二 64.4 - 49.6 (x - 1.723) 二 — 21 .06 + 49.6 x 
当： r 二 1.62 时 Y 二 59.29 •这有两个解释，一是对身高为 1.62 米 
的学生，其平均体重的点估计为59 . 29 公斤； 二是如随机抽到一个 
学生量出其身高为 1.62 米，则以 59.29 公斤为其体重的预测值， 

可按 (2.23) 式计算残差平方和.为此算出 

10 — 

^ _ y )~ — (65 — 64.4) 2 + …+ (58 — 64. 4) 2 = 316.4 

/ ~ 1 

因此按 (2.23) 式算出 

J 0 

= 316.4- 49.6 x 5.268 二 54.39 

/ 二 1 

由此得出误差方差 a 2 的估计值 
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5 2 二 54,39/(10 - 2) = 6.799,5 = 2.61 
取 a = 0.05 .查 t 分布表，得 t n - 2 ( a / 2 ) = r 8 (0.025) —2.306 
于是用 (2.27) 和（2、28)，得到回归函数 m (. r )- i 3 0 + i 3 1 ( x - 

x ) 的置信区间，以及在 o ： 点处 y 的取值 j ； 的预测区间，分别为 
(置信系数都是 0.95) 


- 21 .06 +49.6 x —2.61(0.1 

<- 21 . 06 十 49.61 + 2 . 61 ( 0 . 1 十 ^^^ 2 

以及 


x -1.723) 2 
"0 J 062 ~ 


1/2 


x 2 • 306^ m 


1/2 

X 2.306 



- 21 • 06 + 49 • 6 jt - 2 • 61 ( 1 . 1 + 

<-21.06 + 49.6 x +2.6 l ( l.l + (x ~^ Q ^ 3)2 | 
对： r = 1.62, 上述两个区间分别是 


x 2 . 306 ^jy 


1/2 

X 2.306 


- 21.06 + 49.6^ x 1.62 ± 2.691 = [56.6,62.0] 

- 21.06 + 49.6 x 1.62 土 6,343 二 [53.0,65.6] 

可见，预测的精度比估计回归函数的精度差得多. 

再考虑假设 (2.29) 的检验.在此例中，取 c 二0是没有意义的. 
因为体重明摆着与身高有关，如检验假设 灼 =0,即使接受了，我 
们也只能归因于样本大小 rz 太小,也不大会认为 A = 0 真可以被 
接受.可以考虑的假设是 c 取一个合理的数字，例如 r 二50,40之 
类 .“r = 50”这个假设可理解为 ：在另 一城市一所大学曾作过较大 
规模的测量，在那里比较确切地估出 A =50.现在换了一个城市， 
情况有无改变？由于这样一种提法，且50这个数字先天地有一定 
的根据，在并无比较显著的证据的情况下，我们不愿轻易地认为 
50这个数字不适用于这间大学.因此，取一个较小的水平，例如 a 
= 0.05,就要算比较恰当了.具体检验可按 (2.30) .算出 


aS ^ n ^_{ a / 2 ) = 2.61 X /0.1062 X 2.306 ^ 1.96 


令丨 》 i — 二 U 9.6 — 50丨= 0.4<1.96,故应接受原假设仏二50. 
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如原假设为 ft = 52 ， 则被否定了. 

现在有这样的问 题:一 方面用我们的数据估 岀仏为 49. 6,另 
一方面，按以往资料可以接纳& =50,应取何者为好？这就要分 
析情况，如果以往资料可以认为是与当前资料同质的，比方说，两 
校都是在全国范围招生，其学生的地域构成大体接近，则有充分理 
由认为，当前的的与以 往的内 应差不多.考虑到以往的灼是依 
据大量数据算出，而当前的 ft 只根据10个数据，我们觉得，取以 
往的 /?i 也许更合适（如果妁=50被否定，自又当别论）.反之，如 
两校都是地方性的，其学生来源以本地居多，而两地身高体重在关 
系上又有差別，则我们就可能倾向于采用当前值了. 

这个例子也许并不十分典型，但有关的考虑对其他应用问题 
也是适用的 •统计 学是一种帮助我们对数据进行分析的工具，其应 
用不能脱离对实际问题的背景的考虑.不加区别地机械地使用公 
式，难免导致与实际背离的结果. 

6.2.5 几个有关问题 

以上我们对一元线性回归（且随机误差服从正态分布的情况） 
的统计分析作了较仔细的论述.在这一段中，我们提出几点在使用 
这些方法时值得注意的事情. 

1. 回归系数的解释问题 

设想我们建立了回归方程 

y ^ a + ba ; (2.31) 

—般地把回归系数6的意义解释为 ：当 自变量 X 增加或减少1单 
位时，平均地说， y 增加或减少6单位.这个解释对不对？我们 
说，也对也不对，要看具体情况而定. - 

首先一个问题是 X 的变化区间.在实际应用中，真正的回归 
方程一般总是与线性方程有一定的偏离.在不很大的范围内，这种 
偏离也许不很大，不致对应用造成影响.一般总是在这个意义上， 
我们把回归方程认定为线性的. 


曰后在应用中，如果自变量值 x 超出了上述范围，则回归方 




程 (2.31) 可能已不再成立.这时 X 增加1单位是否使 y 平均增 
加办单位的论断，也就不能成立了.例如，若 x 为每亩施肥量而 y 
为每亩的产量.可以相信，在 x 的一个合理的范围内， y 的平均值 
大致随 x 线性地增长.但一超出一定的范围，例如施肥量过大时， 
进一步增加施肥不仅不能导致增产，反而可能导致减产. 

就是自变量之值处在合理的范围内时，回归系数意义的解释 
仍可能有问题•分两种情况来讨论.一种情况是 x 之值在试验中 
可由人指定（如上述施肥量）•这时，只要在日后的应用中情况与你 
建立回归方程时大体相同——这主要指的是 x 以外的因素对 Y 
的影响要相当，则上述解释，即 x 增减1单位时 y 平均增减^单 
位，是正确的，否则就不见得正确.仍拿上面那个例子来说，设想在 
建立方程 (2.31) 而进行的试验中，所用的田地都是底肥很不充足 
的，而日后你把它用到底肥很充足的田 地上； 或者，在试验中用的 

是深耕（这对肥料吸收有利 ） ，而日后用到浅耕的田地上，则结果就 
不见得正确.了. 

如果自变量 x 是与 y —起观察所得，而不能事先由人控制， 
则情况更加复杂，在这种情况下，除了满足 x 必须处在合理范围 
内这个限制外，还必须注意， x 值必须是在“自然而然地”产生而 
不是人为地制造出来的情况下，上述解释才有效.举一个极端的例 
子■设把 X 作为体重而 Y 作为身高，则在 X —定的范围内，仍可 
建立线性回归方程 （2. 31)，比方说，6 = 0.02 .这意味着体重每增 
减1公斤，身高平均约增长2厘米.假如你观察一个正在长身体的 
青年人，在某时刻你量得他体重 X 为52公斤，身高158厘米.过 
若干时候他体重长到54公斤，你预测他身高162厘米左右，这个 
用法正确.因为你只是一个被动的观察者，并未设法去影响这个进 
程•反之，如果你用强力减肥法使一个胖子在两星期内体重下降 5 
公斤，而预测他身高将下降10厘米左右，则恐怕不见得正确.因为 
' 值的改变出于你人为的干预，违反了 X ， Y 之间的关系的自然 
进程.再举一个例 子:统 计资料显示人的文化水平的提高导致出生 
率降低•但如某个国家孤立地进行提高人的文化水平的工作，就不 
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一定能导致出生率预期的降低.这是因为人口出生率是由一系列 
的经济社会和文化习惯等条件决定的.单抽出文化水平这个因子， 
其实是将它作为一个综合因子来看待.故如它的改变确实是显示 
了这种综合条件的改善，则应有利于出生率的降低.反之，如果其 
他条件（经济、社会等)并无改变甚至有了恶化，而只孤立地提高文 
化这个因子，则背离了建立回归方程的前提了. 

2. 回归方程的外推 




所谓外推，就是在建立回归方程时 
所用的自变量数据的范围之外去使用回 
归方程（如果在自变量数据的范围之内 
使用，就叫做内插）.一般都是不主张对 
回归方程作外推使用的，原因我们在以 
前已提过了，即理论上回归方程一般并 


图 6.5 非严格的直线.例如，回归方程是曲线 

/，如果你在 a < x ^ b 这个范围内使用， 
则直线0可充分好地代表它，但如外推至 c 点，则与实际情况有 
较大的差距了（图 6.5). 


当然，也不能说外推在任何情况下都不行.在某种很特殊的情 
况下，回归方程为线性这一点有充分的理论根据，这时外推应不致 
导致太大的偏差•其次，如外推距离不太远，问题一般也不会很大. 
在没有把握而情况允许时，可以做一些试验，以考察一下回归方程 
在拟应用的范围内符合的程度如何. 

3. 回归方程不可逆转使用 

在自变量 X 和因变量 Y 都是随机的场合，往往可以把其中任 
一个取为自变量.人的身高体重就是一个例子.这时就存在两个回 
归方程，如都为线性的，则分别有形状 


y 二 a + bx ， x = c cly (2.32) 

有趣的是，这两个方程并不一致•意思是，若你把 (2.32) 的第一个 
方程 abx 解出得 ™ a /6 + y /6 ，贝! J 这方程不一定就 
是 (2.32) 第二个方程，对实际数据配出的经验回归直线，也是这个 
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情况.设有了数据，…， u „， Y „) ，把 X 作为自变量配出 
回归方程（用最小二乘法，下同 ）_y 二2/ + ， 与把 Y 作为自变量配 

出的回归方程: c 二7 + &不一定相同， H 一般不相同. 

因此，在人的身高（ X )体重 （ Y ) 这个例子中，如你的目的是通 
过身高预测体重，则你应取 Y 为因变量，以建立回归方程 >，二 a + 
如果什么时候你忽然需要通过体重预测身高，则你并不能利 
用上述方程去作，而必须从头做起，取 X 为因变量，用最小二乘法 
配出方程 . r-c + 办.后一方程用于从: v 预测 x . 

表面上看这一点颇使人感到难以理解，细想之下，道理其实不 
难.为方便计，设 （ X ， Y ) 的联合分布为二维正态分布 N ( a ， b ，。 2 '， 
一…），则如在第2章（见该章 (3.10) 式）中所证明的， Y …对 X 的回 
归方程为 

(y - b ) - fxj 2 a\ l {x — a ) (2.33) 

而 X 对 Y 的回归方程则为 

(工 - a ) ~ pc 7 \< 72 l (y ~ b ) (2.34) 

除非 〆 = ：!，即 X , Y 之间有严格的线性关系， （2.33) 与 （2.34) 不 
一 样，因为，由 （2.33) 得 （ - a ) = 〆 1 a ]£7 2 — 1 ( v — /)) ，除非 ( O 2 = 1 , 
这与 （2.34) 不同.这样看来，理论上这二者本不一致.因此，由数据 
所配出两个经验回归方程，也不会一致了. 

这个论点从理论上说清楚了问题.但在直观上，人们可能仍觉 
得有些难以理解.为说明这一点，考察这样-个情 况：相 关系数 
> 0但很小.这时， X ， Y 有呰关系，但关系很 微弱： 一者的变化只 
引起另一者很小的变化.因此，在两个回归关系 jy = & + 和 t 二 

c + 办中，系数都很接近0•这样二者就必然不一致了.因由 
a ^ bx 得出 x 二 q + 6 u v ， 其中心 i = b ~ l . 很大，因为 6 很 
小，故 h 不可能与 d —致. 

但应 注意： 我们强调回归方程不能逆转使用是指用于预测而 
言，如用于控制则另当别论.比如，建立了 Y 对 X 的回归方程 y 二 
« + 为要把 Y 之值控制在加使其误盖尽量小，0变量 X 应取 
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何值？那要从 M = « +&解出 x = ( M - a )/6 .当然，用于控制的 
情况应当是自变量 x 之值能由人选择时，这时不存在作 x 对 y 
之回归的问题. 

4. 在本节的讨论中，我们都是在自变量 X 为非随机的假定 
下进行的.而在应用中，又不时遇到 X 也是随机的情况，而我们也 
就当作 X 为非随机，仍使用本节导出的公式，这样做在理论上到 
底可以不可以？ 

这问题的仔细分析比较复杂，不能在这里详细给出了.我们只 
指出 两点： 一是若 （ X ， y ) 的联合分布为二维正态 N ( a , b , a 2 u ol 
广），则有关回归系数的点估计，区间估计，回归函数的区间估计与 

区间预测，回归系数的检验等公式，全都合用，但 n 的方差公 

式已不适用（&的方差表达式中含兄，因此处&也是随机变量， 

这是不可以的）.5 2 仍是模型 （2.1) 中的误差 e 的方差的无偏估 
计，但这个方差应是给定 X 时 y 的条件分布之方差，即 4(1 - 
户 2 )(见第二章 （3.9) 式）.因此在这一场合， X 为随机变量并不影 
响方法的使用 •我们 之所以能不顾 X 是否随机而使用本节导出的 
公式，主要就是基于这个理由.二是若（ X ， Y ) 的分布不是正态时， 
虽说回归系数点估计的公式仍可用，但其他一切已不再成立了. 

6.3 多元线性回归 

本节我们考虑有/^个自变量;^，…，^的情形，因变量仍记 
为 Y , 模型为 


y = bo + + …+ bpK p + e (3.1) 

其解释与 (2.1) 相同 •这里 也有自变量为随机或非随机的区别，今 
后我们一律把自变量视为非随机的.在 （3.1) 式中，心为常数项或 
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截距，心称为 y 对&的回归系数，或称偏回归系数仍为随机 
误差. 

现设对 Xi ，… ，乂和 y 进行观察，第/次观察时它们的取值 
分别记为乂^ ，…， 和 I ,随机误差为 e , (注意^不可观察） ，则 
得到方程 

I =心 0 + 办 1 入 w 十…+ bpXp , + e t , i - 1，."，” (3.2) 

这里假定 

e x 独立同分布， E ( q ) = 0,0 < Var ( e t ) = a 2 < 00 

(3.3) 

误差方差^未知. 

统计问题仍和一元回归时一 样：要 根据所得数据 

( X u ，…， Xpi ’ Y!)，i = 1 ，…， w (3.4) 

对 …， bp 和误差方差 a 2 进行估计，对回归函数 60 十 hxi +… 
6 ， 0 进行估计，在自变量的给定之值 （ x ?， …，:^)处对因变量 Y 

的取值进行预测，及有关的假设检验问题等.在上节中对一元情况 
引进的不少方法和概念仍适用于此处多元的情况，但在计算和理 
论方面，都较一元的情况复杂.就本课程而言，我们不能对这些进 
行仔细的论述，只能把一些重要的结果和公式不加证明地写出来. 

在讨论一元的情况时我们曾实行“中心化”，即用 （ 2 . 6 ) 代替 
( 2 .4) .这一变换对多元的情况很有用，方法也一样:算出每个自变 
量:^在 n 次观察中取值的算术平均兄二 …4 ) Az ，而 
后令 

二 X kl ~ X kJ i = 1 ，…， 々二 1 ，…，户 (3.5) 
即可将 (3.2) 写为 

K = A ) + + … + 爲 pK ; e“i = 1，…， n (3.6) 


* 这“偏”字的意思，约略与微积分中偏导数中的“偏”字相当，其真实含义是 ：若只 
取一个自变量&而考虑 Y 与 X 之间的一元回归，则回归系数办：将与 （ 3 . 1 ) 中的心 
不同. 
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A 等与 等的关系是： 

A = 心，々=^ 〜 ) + 心又 I + …+ bpK p (3.7) 
如在模型 （3.6) 之下对 ft 等作了估计，则可用 （3.7) 将其转化为对 
b k 等的估计.在 (3.6) 中有 

十…+ X 二= 0，々=1，…，户 

以后我们只讨论 (3. 6)，且为书写方便计，略去％中的“，’号，即 
仍记为 A ^ : 

= A ) + 灼久 h + …+ ^pi + e^i = 1，•.•，?？ (3.8) 

记住 ( 3 • 8 ) 中的^ ,已是经过中心化的，与 （3. 2 ) 中的不同. 

在讨论多元线性回归时，采用矩阵和向量的记号很方便 .m 
行"列的矩阵常用一个大写字母（如 X , A 等）去记，有时也记为 
(% ), a y 为该矩阵的 （ /，」 ) 元，即第 行第 j 列之元.当 w ^时 
称为”阶方阵阶方阵 A 二（％)，若％二1，当二[)当 
z ，则称为”阶单位阵并记为 J 或.方阵 A 的逆方阵（如存 
在）记为 A ― 1 .矩阵 A 的转置矩阵将记为 A ', 

向量 a —般理解为列向量，如 

a \ 

a ~ : 

为々维列向量，为其第个分量•，则是行向量（^，…，以）.在 

矩阵或向量运算中，0表示各元皆为零的矩阵或向量，有相应的维 
数. 


若 A 为 m X n 方阵， a 为”维向量，则按矩阵乘法定义 ， Aa 
为;"维向量，当 / A 为”阶方阵，而 a 为71 维向量时， a ' Aa 是一个 
数，这形式称为二次型.-般在讨论二次型时总假定 A 为对称方 
阵， B 卩其 （ /， j ) 元等于其 G ，/ ) 元，或 z . 

p 

6.3.1 最小二乘估计 

与一元的情形一样，令 
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Q ( a { ), a x , m " y a p ) - ( Y { - a 0 - -…- X^apY 

i - 1 

然后找卟， …, 之值，记为氣)，…，九，使上式达到最小•瓦等就 

是 A 等的最小二乘估计.作方程 

aQ / a « o 二 O f dQ / da ] = ()，•••， SQ/Sap = 0 

并加以简单的整理，即得 


n 

” a 0 二 巧 ， 解为吾 (） 二 Y 

i -1 

71 

“肉+ “火+…+ /1户/> = L 久1 

* 1 


lp\(^\ + 心 2«2 + …+ — ^pi^i 

i -1 

此处 c 二 y ] x u 7 x,ri •若引进以下的矩阵和向量 ' 

/二 1 


久 11 Xu 

… Xi/ 

In hi 

… hp 

^ ^21 X 2 2 

… x 2 „ 

h\ hi 

...hp 

X = 

擎攀娜 • ■ • 

丄 = 

m w • ■•嗛 

■ _« ♦瞥參 

« * • ■■攀 


… X p? " 

、 1 p\ 1 p2 

… / 

L PP 


(3.9) 


(3.10) 


(3.11) 


fAl 卜： 

:，夕=:，、：: ， a =: 

Y J 化) \^ p ) \ a p \ 

则 L = ； or ， 方程组 (3. io ) 右边各元分别是向量的相应元. 
于是方程组 (3.10) 可简写为 

La = XY („) (3.12) 

方程组 （3.10), g 卩 （3. 12)，称为正则方程.其解，即戸的最小二乘 



、矩阵 x 称为设计矩阵，但一般设计矩阵是指末经过中心化的，由原来的所构 
成的矩阵. 
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估计，可表为 


(3.13) 


) = L - l XY M 

-元情况中最小二乘估计的性质，在此也对％ 

I 九分别是 A ) 和 A 的无偏估计. 

2. Cov (冷。，氣 ） =0，^; = 1,••.，>，即為 0 与每个岛都不相关. 

若记 

C = ( c \) = L- 1 (3.14) 

则 Var (氣 ） = c ， 2 ， Cov ( H ) = Cjk a 2 .由于这个性质，方阵 L — 1 在 
回归分析中有很大的重要性，一般都需要算出来.不然的话，解方 
程 （3.10) 可用通常的消元法更简便，而无须用 (3.13). 

6.3.2 误差方差 or 2 的估计 

仍如一元回归一样，定义残差 

= (吾0+ X 】么 + …+ Xj p ) ，/ = 1，…，” (3.15) 

及残差平方和的+…+朽.可证明 

5 2 = ( 的 4 …+ Si ) /( n - p - l ) (3.16) 

是 cr 2 的一个无偏估计. 

当随机误差服从正态分布时，可证明 交 §] /》服从自由度 

/-I 

" 1的;^分布•这里有 p + 1 个参数/? 0 , 爲，… ，馬要估计，故 
自由度减少了 p + \. 

对此处多元的情况，类似于 (2.23) 式的结果也 成立： 

E(I ~ Y) 1 - (p { ix u Y t + •** + ^Sx^.y,) 

1 ，二 1 /= 1 , = 1 


* 证明见习题 7. 
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此式的方便之处在于： （3.17) 右边括号内的各项，在列出正则方程 

组 (3.10) 时已算出了，而在估计^时，一般先估计总，故 _'，…， 
^等也已算出了. 

6.3.3 区间估计与预测 

在作区间估计和预测时，要假定随机误差服从正态分布，即要 
把 (3.3) 加强为 

e \ 独立同分布 ， a 〜 N (0, c 7 2 ) , i = 1， …，” (3.18) 

> 

这时，因…， &都是 ，…，的线性函数，它们都服从正态 
分布. 

1 . 回归 系数爲 的区间估计 

已知 E (^) = , Var ( ) = c ^ a 2 ，故有 （瓦 - 民） c ”。） 〜 

iV (0， l ) .以 （7 的估计 5 代替上式中的 a , 则可以证明 

(总—忍 )/(5 \ fc ~ jj ) - t n _ p _' (3.19) 

与一元情况相似，由此就可以作出爲的区间估计 

岛 — 3 ^ - 1 ( or / 2 ) ^ ^ ^ ; + B sfcjjt n -p^i( a / 2) 

(3.20) 

置信系数为1 - a . 类似地作出爲的置信上、下界. 

2 . 回归函数的区间估计 
仍记回归函数为 

=办 + /^(勾 - X 】）+ …+ p p U p - X p ) 

瓦的意义前已指出，为艽= ( 〜+…+ X J 7 t )/ n ，: r 二 （； ，…， 

工 p 、- 

W ( JT ) 的点估计为 

A(X) 二身 0 + }i(x x — X!) + …+ ^ p (x p - X p ) 

其期望值为 wO ) ■其方差可根据為 0 ,…，&的方差与协方差算 
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出，结果为 


X 2 (x)(y 2 = ( 丄 + X]( 工 / - Xj)(x k - X k )c jk \a 2 

于是得到 U,(x) - — 5代替 J， 得到 

(m ( x ) - m { x )) /( X { x ) a ) — t n - p ^\ (3.21) 

由此就可作出 m ( x ) 的区间估计为 

r 7 i { x ) - aX { x ) t Tl ^ p -\{a / 2) 

^ m ( jc )^ 7 ? i ( x ) + a \{ x ) t n ^ p -\{ a / 2) (3.22) 

置信系数为 1 - a • 

在 （3.22) 式中令:^二…二了^^^屬到原模型^力中的常数 
项&的区间估计. 

3. 在自变量的值 xt )=(: r l() , …，， 0) 处预测因变量 Y 之取值 
vo 

作为点预测，就用 mUd. 其区间预测与回归函数区间估计 
的差别，就在于方差多了一个 ^ 2 , 故只须把 (3.22) 式中的 A(x) 改 

为 ^/l + A 2 Uo) 即可： 

m(x 0 ) - 5 \/ 1 + X 2 (jr 0 )t n ^ p ^\(a/ 2 ) 

^ 3^0 ^ ^ ( j ： o ) + o v ； 1 + A 2 ( jc 0 ) t n - p -\{ a / 2 ) (3.23) 
其置信系数为1 _ a . 

6 . 3.4 假设检验问题 

在多元回归中，因包含了多个回归系数，可以考虑的假设检验 
问题，比-元情况要多些.本段仍要假设随机误差服从正态分布. 

1 . 单个回归系数岛的检验 

考虑原假设/^:爲^^/为给定常数，利用（3.19)，仿照一元 
情况的处理方式，得 r 检验： 

当丨兔- c|<3 ^ 7 }} t n . p - x { a / l ) 时接受不然就否定 H f> 

(3.24) 
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类似地可考虑单边假设 Pj < c 或的检验问题. 

在应用上，主要考虑的一种情况是 C -0. 如果假设 ft 二0被 
接受，则可能解 释为： 自变量 X ,对 Y 无影响，因而可以从回归函 
数中删去.但这种解释要慎重.一则是样本可能太少，二则还有其 
他原因，见 6.3. 5 + 

2. 全体回归系数皆为0的检验 
即原假设为 


H 0 ：/3| =免=…= 0 (3.25) 

这个假设的检验常称为“回归显著性检验”，其意思如 下：若 (3.25) 
通过了，则有可能，所选的自变量 X '，…， X p 其实对因变量 y 无 
影响或影响很小，这样，配出的经验回归方程也就没有多大意义. 
在实用上，这有两种情 况:一 是确实 说 ，…，/^都为0或很小，这时 
我们选错了自 变量； 一是样本太少，随机误差的干扰太大，以致各 
自变量的作用显示不出来.到底是哪种情况，当然须得对具体问题 
作具体分析.但无论如何，如果假设被接受，则总是显示，由数 
据配出的经验回归方程不理想，不宜迳直用于实际. 

反之 ，若叫 被否定，则这说明了：所选定的自变量&，_•_， 
，对因变量 F 确有一定的影响，并非无的放矢.通常把这说成 
回归达到了显著性，并进而引伸解 释为： 所配的回归方程成立，可 
以有效地使用了.这样的解释还需慎重，因为检验的结果只是告诉 
我们： 所选自变量中，至少有一部分是重要的，但也可能尚留有并 
非重 要的; 尤其是，并不能排斥遗漏了其他重要因素的可能性.这 
一切要看前期工作做得如何，不能都委之于这个检验.我们认为， 
这个检验的基本意义是事后验证性的 ：研究 者在事前根据专业知 
识及经验，认为已把较重要的自变量选入了，且在一定的误差限度 
内，认为0归函数可取为线性的，经过试验得出数据后，他可以通 
过这个检验验证一下，原来的考虑是否有毛病.这时，若 Ho 被否 
定，他可以合理地解 释为： 数据与他事前（试验前）的设想并不矛 
盾.反之，若被接受，则提醒他，也许他事前的考虑有欠周到之 
处，值得再研究一下. 
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这里所谈的实质上涉及一个选择回归自变量的问题.在一项 
大型的研究中，看来与因变量 Y 有关的因素往往很多，而在回归 
方程中却只宜选进一部分关系最密切的，选多了反而不好.前面我 
们强调专业知识和经验在处理这个问题中的作用，但这并不排斥 
统计分析的作用.实际上，回归自变量的选择问题是回归分析中很 
受重视的一个课题，近30年来出现了大量的工作.这些在本书中 
无法细述了，有兴趣的读者，可参看陈希孺和王松桂所著《近代回 
归分析》的第三章. 

现在我们回到假设 （ 3 . 25 ) 的检验问题.我们只能解释一下导 
出检验的思想，而不能仔细证明其中所涉及的分布问题. 

前面我们在原模型 （3.8) 之下算岀了残差平方和 （3. 17)，其值 
暂记为尺!.现如假设 (3.25) 成立，则无异乎说我们采纳新模型 

Yi = , i = 1 ，••，?？ (3.26) 

在此模型下也计算其残差平方和尺 2 ,结果为 

^2 = rniny ) ( y ； - j 3 0 ) 2 - Y ) ( Y , - y ) 2 (3.27) 

HJ i - 1 1 

对任一模型，残差平方和愈小，则说明数据对它的拟合愈好.容易 
看出 ：数据 对模型 （3.26) 的拟合程度，决不能优于其对 （3.8) 的拟 
合程度，因为 (3.8) 中可供选择的佘地比 （3.26) 大.但拟合程度相 
差多少，则取决于模型 （3.26) 是否正确，即假设 （3.25) 是否成立. 
若 (3.26) 正确，则差距要小些，否则就大些'这样，尺，和^之差 
灰2 -尺 i 可作为假设 Ho 正确性的一种度量： _ 愈小， H (} 愈 
像是成立.理论上可以证 明：当 Ho 成立时有 

^ 2(^2 ~ R \) — xi ， 只2 - 与 J 2 独立 
这样，再注意当随机误差服从正态分布时有 

* 这是 •种 直观的想法，其根据在 P : 与 数据拟合最好的模型，是在真模型附近而 
不是远离它一 r 如果远离它（这并非不 ftJ * 能），则表示经验问归方程勻理论回 H 方程茬 
距很人，整个分析就没冇多大意义了. 
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(n - p ~ \ ) d 2 / a 2 — t ] 

于是，由 F 分布的定义，知当原假设 H () 成立时有 

~(^2 _ R \)^ 2 — Fpn —] (3.28) 

按 （3,27) 和（3.17)，得 

n 71 

Ri - 二 + …十 (3.29) 

1 = f ； - 1 

于是得到 (3.25) 的 Hq 的下述检验法： 

当士 2瓦 S W 5 2 < F p ^ p ,( a ) 时接受 H 0 ， 

P i—\ 

不然就否定 f ^ } (3.30) 

检验水平为 a . 这个检验称为 Ho 的 F 检验. 

3. 一部分回归系数为0,即 

H 0 :^i =…=氏= 0 (1 < r < (3.31) 

检验的背景是•.全体自变量按其性质分成一些组，而 X ,,--, 
X r 是反映某方面性质的因子 〆 3.31) 的意义 是：这 方面的因子其 
实不影响因变量7之值. 

检验方法与 （3.25) 同 ：以尺 3 记当 （3.31) 成立时的残差平方 
和，即 

n 

只 3 二 min — X r+ 1 J a"i -…- X pi a p ) 2 

vvi，'.‘. V 」1 

然后，可以 证明： 当随机误差服从正态分布而 Ho 成立时，有 

+ ( 尺 3 - R x )/ a 2 - F r ， }1 
于是得到 (3.31) 的下述检 验法： 

当 + ( 尺 3 - R \)^ 2 < Fr , n - p -\(^) 时接受 H 0 , 不然就否定 

(3.32) 

检验水平为 a . 这个检验通称为假设 （3.31) 的 F 检验.称呼的来 
由显然是，所用的检验统计量有 F 分布. 
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直接计算 尺 3 需要在新模型 

二 A) + fir+iX r +i “ + …十 j3pXp; ~y ei y i ~ 1，"，" 

(3.33) 

之下算出 如，氏小 …為 的最小二乘估计 沉，/?'1， …， 沉 
仍为 Y ， 但/?二 i ，…已与在原模型 （3.8) 之下求出的戽 + 1 ，…， 


^的最小二乘估计瓦+ i ，…，么不同，因此涉及较多计算.下面的 
公式则只须用到原模型 （3.8) 下有关的量，不须涉及新模型 

(3. 33)，因此较为简单.为引迸这公式，把 （3.11) 式定义的方阵 L 
分块为 

L u \ L n； 

L . . 

、 L，i : 

其中 Lu 为 r 阶方阵，记方阵 


则 


D = (d tJ ) = L n 




R3 — R\ 



(3.34) 


(3.34) 中，氣等是在原模型 （3. 8 ) 之下已求得的. 

线性回归是统计学应用中碰得最多的.本节方法中涉及的运 
算，早已编人各种统计软件包，如有这种设备，则只须输人数据即 
可.这类简化公式也就没有多大实际意义了. 

例 3.1 本例引述自张启锐著《实用回归分析》 p . 60,其目的 
纯粹是为了显示，本节提出的那些抽象公式是怎样使用的. 

本例共有三个自变量 X t , X 2 , X 3 ，因变量 y #对这些变量进行 
了 ” = 48次观测，原始数据 （ X w : f = 1，…，48，没有 

写出，但^与本节公式的应用有关也量的计算结果为 

~ 18.98，入2 = 2.55, X3 — 3 . 125, Y = 3*843 


2052.98 

49.15 

782,12 ! 



49.15 

12.46 

13.50: 


= 74.15 

782.12 

13.50 

577. 25」 

f 二 i 
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48 48 _ 

>]( X W - X !) V ; =- 257.59, V ；( X 2/ v X 2 ) Y , =-11.72， 

/' ! i 1 

4S 

XlU :” - X 3 ”〜--141.37 

i - 1 

1. 常数项 ft 的最小二乘估计为 〒 = 843,而回归系数妁， 

IS 2 , ft 的最小二乘估计则是下述方程组 的解： 

2052.98«!+49*15« 2 + 782.12a 3 = — 257.59 
49.15a! + }2A6a 2 + I3.50a 3 - - 11.72 
782J2q+ 13.50a 2 + 577.25a 3 - - 141.37 

解0^,02, or 3 ，即灼 ,13 2 , /?3的最小二乘估计 结 果为 》 i 

二 -0.0488,^2- -0.5688， h = -0.1655 .而经验回归方程为 
^ =3.843 - 0.0488(^! - 18.98) — 0.5688( x 2 - 2.55) 

— 0.1655( x 3 - 3.125) 

= 6.737 - 0.0488^! - 0.5688 x 2 - 0.1655 x 3 (3.35) 

为计算 h ， …， h 的方差协方差，要算出 L 的逆方阵€ = L — 1 ， 结 
果为 

1.0931 - 2.7775 — 1.4160 

C = L — 1 = 10— 3 - 2.7775 89.4009 1.6725 

、— 1.4160 1 . 6725 3.6119, 

(3.36) 

于是得到 

Var(^ 0 ) = t7 2 /48 = 0.0208a 2 ， Cov (吾 0 , 尧）二 0" = 1,2,3 
Var(^) - 1CT 3 X 1 .0931 a 2 ， Var ( 瓦） 二 10 3 x 89.4009^ 2 
Var ( 瓦 ) = 10 — 3 X3.6119a 2 
Cov(H): 10 _3 x ( -2J115)a 2 
Cov(A ，》 3 ) = 10- 3 x ( — 1.4I60)cr 2 
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Cov (先， 》 3 ) = 10'、 x 3.6119< t 2 

2 .残差平方和按公式 (3.17) 计算，结果为 

4 S 

V ；^7 -74.15 - (— 0.0488)(— 257.59) 

; -1 

- (- 0.5688)( — 11.72) 

- (- 0.1655)(- 141.37) 

= 31.5165 

自由度为” - p -1=48-3- 1=44,而得到误差方差 a 2 的无偏 

估计5 2 为：5 2 = 3].5216/44二 0.7163. 

3. 各回归系数的区间估计，取置信系数1 -《=0.95,查？分 

布表，？44 (0.025) =2.02108. 于是按 （3 .20)，爲的区间估计 有瓦土 
/0^ l 63 x /^- X 2. 02108的形式.以 （3.36) 中的 q 具体值代入， 
算出结 果为： 

-0.0488 ± 0.0564; 的： - 0.5688 ± 0.5100; 
ft ： —0.1655 ± 0.1026 (3.37) 

4. 回归函数 

m { x ) — j 5 q + /?i (:r 1 _ 18.98) + ~ 2.55) + 馬 （A — 

3.125) 的区间估计，按公式（3.22)，应为 m ( x ) ± v ^ OTtTM x 

A ( x ) x 2. 02108.其中 A ( x ) 即为方程 (3.35) 的右边的表达式，而 
X 2 { x ) =1/48 + | l .0931 (xi - 18.98) 2 + 89. 4009 ( x 2 - 2.55) 2 

+ 3.6119( x 3 - 3.125) 2 
— 2 x 2 J 115( x { - 18.98) U 2 - 2.55) 

-2 x 1.416(^! - 18.98)( x 3 - 3.125) 

+ 2 x 1.6725( x 2 - 2.55)(^ 3 - 3.125)1 x 10— 3 
例如，对点1 = (18,2.7,3)\上式计算结果为 

A 2 ( x ) = 0 . 02443 ,? h ( x ) — 3.8263 
而得到其置信系数0 . 9 5的区间估计为 
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3.8263 土 / O ； 7 l 64 x AU)2443 x 2.02108 

= 3.8163 土 0.2674 

在、 r 点处 Y 的预测值％ ，的 0.95 置信区间为 m U ) 土 70?7164 
(1 十 A 2 U )) b 2 x 2.02 H )8, 在点 X 二（18,2.7,3)'处，结果为 

3.8263 ± x /1 .02443 x 2.02108 

= 3.8263 ± 1.7314 

看出预测的精度比回归函数估计的精度差得多. 

5. 假设检验 

一个回归系数为0的检验结果（取水平《二0.05)，从各回归 
系数的区间估计即 得出：凡是涔 的置信区间包含0者，原假设爲 
= 0就被接受，不然就被否定.因此，从 (3.37) 看出 ， A =0被接受， 
而馬= 0及/? 3 = 0都被否定. 

仏=0虽然被接受，但这并不等于说一定可以把自变量&去 

掉.这个问题还要根据具体情况全面地去考虑，不能单凭这个检验 
就作出决定. 

其次看原假设= 0,馬二 0. 用检验 (3.32) ，要按 (3.34) 
式算出有 

_ /2052 . 98 49.15\ _ /782.12 V 

n - ( 49.15 12.46/ ，Ll2 = 13.50/ 

L 2 \ = (782. 12, 13.50), L 22 - (577.25) 

于是 


L 11 — LL, 


2052,98 

49.15 


49.15) 
12.46 / 


782.12、/ i \ 

13. 50 )( 577 .25/ (782 * 12t13 * 50) 


/ 2052.98 49.15 丨 /1059.70 18.29、 
、 49.15 12.46/ - \ 18.29 0.32/ 
/ 993.18 30.86、 

\ 30.86 12.14/ 
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J : 是，据 -0.0488,^ 2 - —0.5688, 用 （3. 34)，得 
R :)~ R ' -993,18(0. 0488) 2 + 12 . 14(0.5688) 2 

+ 2(30.86)(0.0488)(0.5688) = 8.006 

厂二2,5 2 =0.7164.故 

丄（仏 — 仏）々 2 =各 x 8.006/ 0.7164 = 5.588 

r I 

查 F 分布表，知 F 2 , 44 (0.05) 〜3.2〗•故被否 
定. 

最后考虑检验问题仏 ：汍 =庆=/? 3 二0 . 用检验 （ 3 • 30 ) ，其检 
验统计量之分子为 

4((— 0.0488)(— 257.59) + (- 0.5688)( - 11.72) 

一 (- 0.1655)(- 141.347)) = 14.211 
故 （3.30) 中的检验统计量之值为 14.211/0.7164= 19.837. 

因为 F /A；/ / J _ 1 ( a )- F 3 ,44(0.05)^2.82,^ H 0 被否定. 

6.3.5 应用上值得注意的几个问题 

在一元回归应用上所曾提出过的那些值得注意之点，在此仍 
然有效.多元回归情况更加复杂，在其结果的解释上更应慎重. 

1 .设 Y 对自变量\的回归系数估计值为&，通常把它解释 

为：当；^增减1单位时，平均说来因变量 y 增减免卑位.如果\ 
的取值能由人控制，其范围在建立经验回归方程吋所用数据的范 
围内 ，且在 尔后的使用时，其条件与建立回归方程时的条件相当， 
则这个解释可以认为是合理的. 

如果\本身也是随机的，则情况复杂，不仅在一元情况下所 
讲的那挫问题此处都存在，而且还有一个各自变量之间的相关问 
题.如果自变量为随机的，它们一般不见得独立，即一个变量，例如 
X ; ，其值的变动往往会带动其他变量的值作变动.这时，各回归系 

数的值，都是在全体自变量值的联合变动的格局内起作用，孤立地 
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抽 i 个去考察就不一定很现实了.在这种情况下，尤其不能人为地 
去设法变动其中一个(例如 x ; ) 之值而强行压住其他自变量值保 
持不变.在这样人为干预下所作的预测往往与实际相去甚远. 

在使用线性回归时我们必须牢记一个基 本点： 真实的回归函 
数，特别在较大的范围内，很少是线性的.线性是一种近似.它包含 
了-种从实际角度看往往不一定合理的假定 ：它认 为各变量的作 
用与其他变量取什么值无关，且各变量的作用可以叠加.因为，若 
V = ^0 + 心 1 x 1 + … + ， 则不论你把 1 - Xp 之值固定在何 
处，当 Xi 增减1单位时：彳总是增减 h 单位.事实常不如此.例 
如，以 Y 记某种农作物的亩产量，1，七，&记每亩播种量，施肥 
量与耕作深度，则 Xi 起的作用如何，与 X 2 , X 3 之值有关，其他亦 
然.这种现象称为各因素之间的“交互作用”.如果专业知识或经验 
告诉我们，至少有一部分自变量之间有显著的交互作用存在，则在 
H 变 M 值较大的范围内釆用线性回归就不会有很好的效果.且在 
这种情况下，单个回归系数意义的解释，也应是基于其他变量的平 
均而 n . 

2. 在实际应用中，一个回归模型内可包含为数甚多的自变 
M ， 其中难免有拽是密切相关的.例如，若&和 X 2 高度线性相 
关，则&起的作用，基本上可由 X 2 挑起来.反之亦然.这样，如果 
你从方程中删除自变量 X 1? X 2 中的一个，而对剩下的 p - 1个自 
变量再配出方程，实际效果与原来的相当.这就造成下述在假设检 
验上看来矛盾的现象 ：“妁 =0”或“的二0”都可以被接受，而“仏二 
/? 2 = 0”则被否定. 

所以，如果自变量是随机的，则对它们之间的相关性的了解很 
重要.这有助 T 删去那些不需要的变量，使配出的回归方程有更 
好的稳定性，并简化对回归方程的解释. 

3. 为得出回归系数的估计值，要解线性方程组 （3. 10)，如果 
系数方阵 L 的行列式 | L | 二0,则方程组 （3.10) 无解.在应用上可 
能碰到这样的情况 ： I L | 不为0但很接近于 0. 这时，诸系数 I 在 
计算上一点点误差也可能导致方程组 （3.10) 的解的重大改变，因 
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fflf 回归系数的估计值就失掉了其稳定性和可信性. 

这种情况在统计上称为“复共线性”，意指若干个自变量之间 
存在着高度的线性关系.在作多元线性四归分析时，复共线性是一 
个很有破坏性的东西.凡是可能，应极力予以避免.如果各自变量 
取值叫人为控制，自可通过适当的设计达到这一点.如果自变量是 
随机的.通过分析其相关性并删去若干不必要的（可由其他自变量 
代替的）自变量，可能达到这一点.如这些都不成，则不宜强行使用 
最小二乘法，可考虑用其他更富稳定性的方法取代之.这个问题涉 
及太宽，不能在此细述.关于复共线性，张启锐的《实用回归分析》 
第六章可以 参考. 关于回归系数的种种估计方法 （ 最小二乘法以外 
的方法），可参看陈希孺及王松桂的《近代回归分析》第四章，及上 
引张启锐的书第九章. 

6.3.6 可转化为线性回归的模型 

有时，回归函数并非自变量的线性函数，但通过取用新自变 
量，可以转化为线性回归去处理.举几个例子说明这一点. 

例 3.2 设有一个自变量 X 和因变量 Y . 如从某种理论考虑 
或数据的启示，认为回归模型有指数形式 

Y = 6() + ^] e rA + e 

其中常数 c 已知，~，卜未知， e 为随机误差.则通过取新自变量 Z 
= e iA ' 将其转化为一元线性 回归： 

y - h {] + b x Z 4- ^ (3.38) 

若在原模型下对 （ A ' VO 有了观测数据（ X!， K ) ，…，（尤，匕），则 
等 f 在新模型下有了观测数据 （ & ，广） ，…，（厶， ） ，其中厶= 
e (A . w = 1，…，〃.若 r 也未知，则这一做法失效. 

例 3.3 仍设有一个自变量 x 和因变量 y ， 并认为回归函数 
为 X 的多 项式： 

Y = b 0 + b { X + b 2 X 2 + ••- + IjpX p + e (3.39) 
引进 { 个新自变量 Xi ，…， \，其中 X 」== …，/>，则模型 
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(3.39) 转化为有 p 个自变量入 1 ，…，\的多元线性回归 

Y — b {) + 6 j 乂 1 十…十 bpKp + e (3.40) 

若在原模型下对 （ x , y ) 有了观测数据 （x 1 ， y ! ) ，…， （) ,则 
等于在新模型 （ 3 . 40 ) 下有了观测数据 

(Xv ，…， x Pi ， y ,*) ，?’ 二 1 ，…，， z 

其中 x ，）= 1 ，…，/>，/ 二 1，…，? r 

(3,39) 称为“多项式回归”，是一个应用较多的回归模型.经过 
转化后的回归模型 （3.40) 成为多元的.变换以后的自变量 
X p 之间有严格的函数关系，这没有关系.因为在前面讨论线性回 

归时，并没有对自变量之间可能有的关系作过任何限制. 

在模型 （3.39) 之下，假设“~ = 0”有特殊的意义，比方说，一开 
始我们较有把握认为取 2 阶多项式已够了，但还不太放心，希望检 
验一下.于是我们取模型 （3.39) 而令 f = 3.若假设 “h = 0” 通过 
了，则数据不与我们原先的想法（回归取为 2 阶多项式已足）矛盾. 
否则就须调整原来的想法. 

多个变元的多项式回归也一样变换.例如，包含两个自变量 
X t , X 2 的二次多项式回归模型 

Y = bo + b\X\ + hX ] 十 b^X.^ + b^X\ + b^X #2 十 e 

可通过采用新自变量 

- X r ,z 2 - X 2 ,Z 3 = Xi ， z 4 - Xhz 5 二 XiX 2 

化为多元线性模型 

Y = 6 0 + + …十 b 5 Z 5 + e 

在有些情况下，不仅自变量可施行变换，对因变量也这样做. 
例如 X , y 有回归方程 3 ； = “eV joA 未知，这不是线性的，也 
不能通过自变量的变换化为线性的.但若令 Z = logY , 则 Z 二 
log /々) + 6iX = /? 0 + /3 jX ( j 5 0 - log ^ o ,^] = b x ) ，而化为线性的. 

不过对因变量所作的变换，较之对自变量所作的变换，存在一 
个理论上的问题.即自变量的变换不改变模型中的随机误差 e 这 
—项.因此，有关 e 的假设（如均值为 0 ,方差非 0 有限，或 e 服从 
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正态分布之类）全都保持有效，对因变量之变换则不然.拿本例来 
说，原模型为 

Y =. b 0 e b r x + e (3.41) 

把 Y 换成 2 = 得 Z^logaoeV + e). 形式上可写为 

Z 二 6o + &iX + € ； ，芭 = log(l + edo ] e~ b i X ) (3.42) 

£已不能满足6原有的条件，甚至还和X有关. 

因此，在对因变量作变换时，我们不是拘泥于从 （3.41) 到 

(3.42) 这种形式运算.而是从头开 始：我 们觉得并认定，若取2：二 
logY 为因变量，则 X,Z 的回归很近似线性，不妨就认为它有 

(3.42) 的形式而 e 满足以往对 e 施加的条件.这有其道理可 讲：因 
为反正原模型 （3.41) 中 e 的性质，也无非是一种假定而已，并非先 
天绝对无误.转化成 （3.42) 后，我们未尝不可对 e 作出类似的假 
定，并无先天的理由认为 •.对 e 的假定一定不如对 e 的假定那样符 
合事实. 

更进一步，为达到线性回归，有时对自变量和因变量都要施加 
变换，其方法和道理与上同，例如，若回归方程为 y = 々，则 通 

过变换 w = 1/u 二 logj/， 转化为线性型 v - \ogb 0 + b { u. 

6.4 相关分析 


在相关分析中，所涉及的变量都是随机的，且处于平等的地 
位，故用X!，…，乂来记，而不用 y. 


6.4.1 相关系数的估计和检验 

设 （A'，X 2 ) 服从二维正态分布 」VU ，^，^，(^，^^，其概率密 

度函数见第二章 (2.7) 式.在第三章 指出： a 分别是X !的均值 

方差，纟，分别是 X 2 的均值方差，而^ 是; 之间的相关系 
数.在3 _ 3节中仔细论述了相关系数的意义，尤其是指出了 ：当总 
体分布为正态时，相关系数确实是变量之间的相关性的合理指标， 
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Ifi ] 在非正态情况则只是线性相关程度的度量. 

相关系数^0的公式是 

P = Cov ( X 1 , X 2 )/( Var ( X 1 ) Var ( X 2 )) i/2 (4.1) 

这个公式启发了 p 的一个估计方法，即矩估计法.设 （ Xu ， X 21 )， 
…， （ X U ， X 2 „) 为 （ XhX 」 的〃个独立同分布的观察值，按矩法， 

分别以（ X」=XI ^ ji/ n W 二 1,2) 

/ - 1 

fi ?! 

、1 (入“ - X\) 2 /(n — 1 ) , (^2 i ~ 乂 2 ) 2 /(” - 1 ) 和 


n 

〉 j (Xiy ^ X[ )(X 2 ； - Xj) /{n - 1 ) 

/ - 1 

去估计 VarUihVarUj 和 Cov(X,,X 2 ). 由此，按 （ 4. 1 ) ,得出 p 
的估计为 




-^,)( X 2 


-X 


r 


[12(x u ~X 2 ) 2 

称为“样本相关系数”. 丨 


1/2 


(4.2) 


对 P 的检验，最有兴趣的是原假设 

H 0 ：p ^ 0 (4.3) 

对立假设为 p ^ O . H 0 表示 X 1? X 2 独立（在第三章已指出这在非 
正态情况下不成立）.一个显然的检验方法是 ：计算 r ， 

当 I r I < C 时接受 H G , 不然就否定 H 0 (4.4) 

常数 C 与样本大小〃及检验水平 a 有关.要决定 C \ 必须求出在 
p 二 0时样本相关系数 r 的分布.这分布不很复杂，但我们这里无 
法介绍推导过程了，只指 出：当 p = 0时有 x 

^ n ~ 2rjsf\- r 2 〜 tn i (4.5) 

由于 I r I <c 等价于 I ， / Vy ^ T 2 I ~ c 2 ， 


证明见习题 8. 
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由 （4.5) 不难定 出：当 给定检验水平 《 时， （4.4) 中的 C 应取为方 
程 '/VI c / vT 7 ^ 2 = ~ 2 ( a / 2 ) 之解，即 

C - t }l - 2 ( a/ I - 2 +- Ua /2) (4.6) 

对；；二20,30，.*.，100，由（4.6)算岀的 C ,*( a -0.05) 


n 



当样本大小 ？？ 为20时，即使样本相关系数 r 达到土 0.4,尚不足 
以推断^异于0.随着^增加，这个界限逐步下降，但即使〃达到 
100,这个界限也还大约在 0.2 .这说明 ：要发 现两变量之间较微弱 
的相关，样本大小^必须很大才行.同时也说明 了：对 较小的 n，r 
的精度很差，意义不大. 

当~乒0时样本相关系数 r 的分布问题，在本世纪初曾是 K . 
皮尔逊和 R . A . 费歇尔等统计学大师着力研究的对象，最后被费 
歇尔在1915年解决了，其形式极为复杂，在此不能细述了. 

6.4.2 偏相关 

在统计学上，相关系数作为随机变量之间相关程度的刻画，用 
得很多，但在其解释上则应注意 几点： 一是统计相关不能等同于因 
果关系，这一点我们在第三章中已指出过了.例如，分别以 X l ? X 2 
记一个人的饮食和衣着消费，则 x,,x 2 有较强的相关.但很难说 
这二者有何因果关 系：说 好吃的人多半好穿，或者好穿的人多半好 
吃，未见得可信.但既然如此，为什么在观察结果上又会显示岀较 
强的相关呢？这就涉及到另--个需要注意 之点： 所考虑的变量（如 
此处的并非孤立的，它们除彼此可能有的影响夕卜，还受到 
一大批其他变量（不妨暂称为 …， x p 等）的影响.由于这个原 
因，相关系数有时被称为“完全相关系数”.意思是说，在其中总结 
了由-切影响带来的相关性.这个说法解释了上面提出的那个问 
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题： 为何看来彼此并无密切因果关系的变量，在观察结果上会显示 
出较强的相关.这原因就在于被其他因素带动起来了.拿上例来 
说，如以 x 3 记人的收人，则一般说来，收入大的人各方面消费都 
倾向于高，它带动了 Xi (吃）和 x 2 (穿）增长，以致使二者显示出较 
强的正相关，可以设想，如果能用某种方式把 x 3 的影响消去，则 
x 1 t x 2 可能显示很不一样的相关性质.例如它可以转为负相关. 

因为在一定收人的人中，在吃、穿中的一个方面消费大的人，一般 
会导致另一方面消费的减少. 

一般，设有个随机变量 

x p 的影响从中消去，剩余的部分分别记为 X /和 X /.贝 IJ 

相关系数称为 Xi ， X 2 对 （ x 3 …，\)的偏相关系数，并 
记为在以上论述中 ，“ 消去”一词的含义并未严格界定， 
但一般是在最小二乘法的意义下.例如，从&中消去 x 3 , …， x fi 
的影响，指的是找一个线性式 

L t ( X 3 ,-**, X /) ) = r 0 H - C3X3 十…+ CpKp 

使 /!：[&- Md ， …，\)] 2 达到最小，剩余就是 

X \ = X \ ~ L 1 ( X 3 ,*** 

同理找线性式 L 2 ( x 3 , …，\)=也+ d 3 X 3 + …十^/士，使 £[ x 2 - 
L 2 ( Xi , r " , X P ) ] 2 最小，剩余是 

X 2 = X 2 - 乙 2 ( ， …， X /) ) 

X ^ x 2 对 （ x 3 , …， x p ) 的偏相关系数川就是 x ^ x ； 的相 
关系数.要算出其表达式，就需要算出上文的线性式 M 和 L 2 .下 
面我们对/> = 3这个简单情况来计算一下.分别以 aiJ a 2 f a 3 ;ah 
记和 X 3 的均值和方差，以^，叫，^分别记 A ， 
X : 之间，& ， x 3 之间，和 x 2 , x 3 之间的相关系数. 

关于找一个线性式 L 1 ( X 3 ) f ^ E ( X 1 -/^( Xs )) 2 达到最小的 
问题，已在 3.3 节中讨论过了，按该章的 （ 3 . 5 ) 式，用此处的记号， 
有 

(入 3 ) = 十 CT ] <?3 1 /°13 ( ^3 — a 3 ) 
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同理有 


L 2 (X 3 ) = a 2 + ^2^3 V23(^3-~ ^ 3 ) 

故有 

X'] = Xi - «! — 阳 （ X 3 — a 3 ) 

X’2 二 x 2 _ (12 - ^2^3 V 23^3 - a3 ) 

显然， ）= 0 , 而按第三章 （3. 6 ) 式，用此处的记号， 

有 

Vs.r(X \) = a\(l - p] 3 ) jVariX%) — ^r(l - plz) (4.7) 
‘而 

CovCX^X；) = E(X ； ,X；) - E[(X x - a{)(X 2 -a 2 )] 

- fTicxi I i onE[(X 3 — ^3) (^2 — a 2 )] 

- ^2 1 i°23 E\_(Xi — a 1 ) ( X 3 - a 3 )] 

十 ^ icr 3 Vl 3^2^3 Vl 3^[(^3 — a 3 )] 2 

~ ^X^lPn ~ ^l^3 l PU^2^3P23 

-1 . -? 2 

-a 2 <7 3 ^23^1^3^13 + ^13^23^3 

=axOjpn - ^i^2Pnp23 = ^J^2( ； °i2 ~ ^ 13 ^ 23 ) (4.8) 

由（ 4,7) ，（ 4.8 )，得 

^12*(3) == CorriX' ijXx ) 

^Cow(X / u X / 2 )/( VaKX^) Var (X ' 2 )) 1 /2 

二 （/°12 - ~ ^ 13)(1 _ /°23)] 1/2 (4.9) 

细察表达式 （4.9)， 有如下的构 造：把 X !, X 2 , X 3 之间的相关系 
数，连同 X , 与 Xi 之间的相关 系数& = 1也在内，排列成一个三阶 
方阵(称为的“相关阵”） 

Pn p\i 阳 f 1 P12 P13 

P21 P22 P23 — P\2 1 P23 

p31 Pzi P33J 1^13 P2Z 1 

此处用了外 =l ， ~ 二 ~ . 则其 （ l ， l) 元的子式，即划掉 p 的第 一 
行第一列所剩下的行列式，等于 Pu=l - . 同样，（ 2 , 2 )元的子 

• 328 • 




式为 = 1 _ d ( l ，2) 元的子式为 P \ 2 ^ pn ~ ^13^23 - 因此 

|°12 •⑶ = P 12 ^ 11^22 

这个表达式，可以证明，能推广到户个自变量， X 3 ，七的情 
况.仍以内记 V ，\之间的相关系数（作二1，内 = ftv ) ， P 记其相 
关阵： 



^11 

P \2 

… Pip 


P = 

P 21 

4 

_ 

_ 

P 22 

畢 

♦ 

… Pip 

0 

擎 

鲁 

( 4 . 10 ) 


、 Ppl 

Pp 2 

… PPP ; 



而以尸_记户的 U ， u ) 元的子式，即从 P 中划去第1 ^行第 V 列所 
成的行列式，则 

Pl2-(34--fi) - P P 11^22 (4.11) 

从表达式 (4.9) 看出一个现象.设 &2 X )， 但不太接近于1.即 
X 2 为正相关，但相关程度不是非常密切.又 | 0 13 ， | 0 23 都很接近1，则 

(4.9) 式之分子将小于0,即以 2 .⑶<0.就是说，尽管 X !, X 2 的通 
常相关系数为正，其偏相关系数可以为负.这拿前面举的那个 Xt 
=吃的支出，二穿的支出， X 3 = 收人的例子可作一个印证 . ， 
X 2 的（完全）相关~ 12 大于0,但看来都为正且很大，故 

化2.⑶当小于0:从吃穿支出中消去收人的影响，等于在固定收人 
的情况下考虑二者的关系，其相关为负就不难理解了.当然，反过 
来也可能：即 | Oi 2 < 0但 012. (3) >0, 

因此，在涉及多个变量相互影响的问题中，不仅考虑完全相关 
系数，而且考虑种种有意义的偏相关系数(在全部0个自变量中， 
可任选出 k >3 个：久 ^…，而考虑 X v U 、 tU v ."，') 的 
偏相关系数.其计算仍按 （4. 11 ) ，只是在 P 中要把不3 是“， & 
那些行列都划去），这样对整个相关的图景就可获得深人一层的了 
解. 

读者也不要误以为偏相关系数高于完全相关系数，这二者各 
说明“相关”这个概念的一+侧面，其含义不同.在什么情况下哪一 
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种相关更为贴切，要看问题的性质. 

如果对 （ A ，…， xj 进行了 n 次观察，得样本 

1 ， ... ， ” 

则可以用前面的方法（见 （4.2) 式）估计尤 与 X v 的相关系数，即 
计算样本相关系数 



7 } 


TM -D(X m 



x u y 


. 2 ( x l7 - xj 2 ] 1/2 

■ i — 1 

其中二 （ X H + … + X hl ) / n ，々 =1 ，…， /?. 有厂仙 = 

以 r i ( t , 代替 P 中的得样本相关阵 


R — 

然后用 


厂 11 

广 12 

警 _ • 

r \P 

广 21 

_ 

_ 

厂 22 

4 

# 

… r lp 

擊 

攀 

_ 

Jp\ 

• 

r p2 

• 

警_ 暑 

r PP 


r 


Wi 


r 


z>u 


(4.12) 


厂12-(34.../0 = Rn ^22 (4.13) 

去估计 n 2. o .+ .它称为样本偏相关系数. 

如果要检验 有关内 2 .( 34 ..w 的假设，则必须假定变量服从正态 
分布.在这种假定下，可以 证明： 原假设 

: P 12 .(34". p ) — 0 (4.14) 

的一'个水平 a 的检验为 

J I r 12*(34- ■•/>) ^ ^ t n - p(a / 2) /\_?1 — p H - a / 2)] 1//2 ,接受 Hq 

I 厂12.(34“卞）：> t n - p ( a / 2 ) / [ ?2 - p + t 2 n - p ( a / 2)] 1/2 , 否定 H 0 

(4.15) 

此检验与前述相关系数为 0 的检验之差别仅在于，把 (4.6) 式中的 
??— 2换为 n ~ p , 

例 4.1 随机抽取1000人调查其（每年）吃的支出（％)，衣 

着支出 （ X 2 ) 和收人（入 3 ),算出的样本相关系数分别为 ri2 = 0 .57, 
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r 13 = 0.82, 厂 23 二 0.80 .对 77 二 1000, a 二 0 • 05，广„ _] ( a 〆 2 ) 和 t n -3 
( a / 2) 都可取为 1.96. 于是易算得 | n 2 | > t n - 2 ( a / 2) / 

2 ( a /" T ) ，因而 &， X 2 的（完全）相关在 a = 0.05 的 
水平上为显著的且为正相关.按公式 (4. 9)，算出 

厂12.(3)二 (^*12 - r i 3 r 23) / V / 0 - r\ 3 )(l - r ^) = - 0.73 
它在水平 a —0.05 时为局度的负相关. 

6.4.3 复相关 

设有若干个随机变量&，…，\.可能有这种情况对每 
个 \ G > 2 ) 的相关性不一定很显著，但全体 x 2 ,***, x p 合起来， 
则与 X ;有较显著的相关.例如，设 A 为某种水田农作物的产量， 
X 2 , …， x p 为该作物生长期那几个月的各月降雨量（例如3、4、5、6 

月），亩产与指定一月的降雨量肯定有关，但不一定十分大，而全体 
这几个月的降雨情况，则肯定与亩产有更大的相关.这种以&为 
一卞， x 2 , …， x p 全体为一方之间的相关，称为&与（1 2 ，…， x p ) 
的“复相关”. 

这种复相关的定义，与偏相关有其相似之处，就是也要找 x 2 , 
…， 的一个线性式 L ( X 2 ，."， X p ) = c 0 +勹 X 2 十…+ ，使 

，…，心）] 2 达到最小，然后，&与 L ( X 2 ，…， X p ) 的 
通常相关系数，就定义为&和 （ X 2 ，"、；^) 之间的“复相关系 
数”，并记为 ^1(23--^) - 

求 UX 2 ，…，\)的方法，与 3.3 节所用方法相似（那里解决 
了 /> = 2的情况），仔细推导过程不在此写出了，我们只给出最后 
的结果为 


PK 23--- P ) — y i JN 7 p 7 i (4.16) 

这里 I P I 为 (4.10) 所定义的方阵 P 的行列式， P u 如前，是方阵 P 
的（1，1)元的子式. 

如果对 （ XhA ， …， X p ) 进行了 72次观察，得样本 U H ， X 2 :， 
&)“ = 1，…，〜则由之计算出样本相关阵 j ? (见 （ 4 . 12 ) 式），以 
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R 取代 (4.16) 中之 P， 得样本复相关系数 

叩 23 i) 二 VT^ |^| /Rn (4.17) 

它可作为&的估计. 

关于复相关系数的检验，实用上有兴趣的是 

Wo： = 0 (4.18) 

直观上看 ，一 个显然的检验方法是 


当 r l(23 ... p) < C 时接受]^，不然就否定 H 0 (4.19) 


要依据检验水平 a 去决定 (4.19) 中的常数 C， 就必须求出当 Ho 
成立时，的分布.可以证明 ：当正 态假定成立且为真 
时，的分布为所谓7分布”，其密度函数 / G ) 为 




n - 

x ) 2 ,0 < -x < 1 

其他 X 


(4.20) 


其中曾在第二章的附录中定义过.用这个分布去 

决定 （4.19) 中的 C， 可以通过 F 分布表.因为，在 （4. 20〉的基础上 
可以证 明：在 Ho 成立时有 


n 


P 


^ 1 ( 23 ^ 


P) 


p ~ 1 1 — 


F 


厂丁(23…/0 


(p-\.)/2 i (n-p) /2 


(4.21) 


D 自由度的 F 分布（见第2章例 4.11) .由 （4.21), 定出 

在给定水平 a 时， （4.19) 式中的 C 为 
C = 


[ 了 pP (p~') /2 ，( n - P) /2 ( a 、) / (' 十 (p 一 ')/2 ， (n- p)/2(a 


nl/2 


(4.22) 

% 

在以上的叙述中， x ;, …，也可以只是考察的全部变量中 
的一部分.例如 ，Xi 代表亩产量， x 2 , …，代表所考察的全部气 
象因子，如有关各月的降水量，月平均气温等，而 x p + u …， x q _ 
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则代表与田间管理有关的因子，另外还可以有别的因子.我们可以 
考虑 I 与（又 2 ，…，\)的复相关，以看看亩产量与气象因子相关 
的程度如何，可以考虑 Xi 与…， x g ) 的复相关，以看看亩 
产量与管理因子相关的程度如何，等等.上面所说的估计和检验方 
法当然仍然适用. 


6.5 方差分析 

方差分析是我们多次提到过的英国大统计学家费歇尔在本世 
纪20年代创立的.那时他在英国一个农业试验站工作，需要进行 
许多田间试验，为分析这种试验的结果.他发明了方差分析法.尔 
后这个方法被用于其他的领域，尤其是工业试验数据的分析中，取 
得了很大的成功. ^ 

这里已经点 明：方 差分析所针对的数据，是经过一定的“设计” 
的试验的数据，并非任何杂乱无章的数据都适于使用方差分析法 
的.说清楚一些，为了能有效地使用方差分析法，试验在安排上必 
须满足一定的要求.在数理统计学中有一个专门分支，叫“试验的 
设计与分析”，就是专为讨论这个问题.其中的“分析”，主要是指方 
差分析，但也不限于此. 

本书以其性质所限，不可能深入地从理论上阐述这些问题，或 

涉及过多细节.这一节的目的，只在于结合几种最简单的情况，介 

绍一下方差分析的基本思想和做法，也顺便解释一下试验设计的 
某些重要概念. 

6.5.1 单因素完全随机化设计 

假定某个农业地区原来不曾种植小麦，现在打算种植这种作 
物.各地已有过一些优良品种，但因本地区并无种植小麦的经验， 
不知道哪一个品种最适合本地区(有最高的产 量）， 甚至也不知道 
这些品种对本地区是否有差别.为此进行一个田间试验.取一^大块 
地将其分成形状大小都相同的„小块.设供选择的品种有々个， 
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我们打算其中 的~ 小块种植品种1，〃 2 小块种植品种2,等等, 
^ 1 + 心 +…〜二^ , 竹\， 7 飞2,…、 n k 的选取并无严格限制.例如，让 
n '= n 2 x nk (如 n / k 为整数），就是一种常用的选择.当然， 

也可能有某种原因使得另外的选择更好.这没有关系，不妨碍试验 
数据的分析. 

分配数目定了，接着就要定出哪些小块分给哪些品种.而这是 
用随机化的方法来定，做法如下 ：取〃 张纸片，上面分别写上数字 
1，2,…，〃.把它混乱并放入一个盒子里，然后一张一张地依次抽 
出来.最先抽出的^个号码给品种1，其次抽出的，个号码给品 
种2,以此类推——当然，事先已把上述77小块地从1到 n 标了 
号.例如 ，〜 =3.若最先抽出的3张纸条上面的数字依次是10, 
12，^，则品种1种植在标号为3,10和12这3小块地上. 

以上就是这个简单的品种试验的设计过程.不要看它简单，它 
却包含了由费歇尔指出的“试验设计三原则”中的两条（另一条将 
在 6.5.4 小节中解 释）： 

1. 重复.即上述化，巧，…，化都大于1:每个品种不是只种 
植在一个小块，而是多个小块，即有重复.这样做的原因就是因为 
有随机误差存在，而只有通过重复才能对这种误差的影响作出估 
计.在本例中，随机误差的来源，有各小块地在条件上的差别，有在 
迸行田间操作和管理上的不均勻性（如施肥时各小块受肥总会略 
有差别），及其他可以设想和未曾注意到的种种原因. 

随机误差的存在干扰了我们发现品种间差别的工作.两品种 
间如果虽有些差别，但相对于随机误差来说没有大到一定的程度， 
就可能被随机误差所掩盖.品种间由数据上显示的差别，究竟是实 
质性的还是表面的，只有拿随机误差这把尺子去衡量才有定准.由 
此可见随机误差的影响的估计的重要性，而重复的目的正在于此. 

2. 随机化.在本试验中共有〃个小地块.虽然在选择哪一大 
块地时我们可能已力求其各部分条件尽量均匀，但在划分为 n 小 
块后，各块的条件总会有些差别.如果某个品种正好分到了条件好 
的那些小块，则它可能显示岀较高产量，而这并非由于该品种优于 
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其他品种. 

为了使小块的分配不致因为人为的因素而偏于某一或某些品 
种，我们采用前面所描述的那种随机化分配方式，即哪些小块分配 
于哪些品种完全凭机会.这种设计之所以称为“完全随机化”，是指 
在分配小块时，除了随机化这一原则外，别无其他条件限制.这是 
相对于有些试验而言，在那些试验中，除随机化以外，还有别的条 
件限制小块的分配——只是部分地随机化. 

现在可以说，随机化这个原则在统计学中算是确立了.在其提 
出的早期，部分地以至于今，并非没有反对的意思.支持随机化原 
则的主要理由有二 ：一是 人为的选择并不能保证有好的效果，人们 
对各试验单元（在此为各小块）的情况往往并无充分了解，甚至有 
时了解的情况是错 误的； 二是用随机化设计所取得的试验数据，往 
往有便于进行分析的统计模型. 

在本例中，影响我们感兴趣的指标——亩产量的因素只有一 
个，即种子品种•所考虑的不同的种子品种有6个.每一个具体的 
品种，都称为品种这个因素的一个“水平”，故品种这个因素一共有 
k 个水平.以此之故，本试验称为单因素々水平的试验 . &称为水 
平/的“重复度”. 

如果要考虑几种不同的配方对一种工业产品质量的影响，则 
是一个以“配方”为因素的单因素试验，有几个配方参与试验，就有 
儿个水平.如要比较几种降压药对治疗高血压的作用，则是一个以 
“药品”为因素的单因素试验，水平数就是参与试验的药品数，等 
等•在实际问题中，往往有若干个因素参与试验，这时就有多因素 
试验,见本节 6.5.3 和 6.5.5. 

6.5.2 单因素完全随机化试验的方差分析 

设问题中涉及一个因素 A ，有々个水平，如上例的々个种子 
品种.以记第 2 个水平的第 ； 个观察值 J 卩上例，％是种植品种 
i 的第 J 小块地上的亩产量.模型为 

A 二 十 e"，j = 1，...，义-，/ = 1， …，々 （5.1) 
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a , 表示 水平； 的理论平均值，称为水平；的效应.拿上例来说 ，化 

就是品种/的平均亩产量，％为随机误差.假定： 

Eie ^) = 0,0 < Var ( e i} ) = tr 2 < °°，一切 ％ 独立同分布 

(5.2) 

因素 A 的各水平的高低优劣，取决于其理论平均^的大小. 
故对模型(5.1)，我们头一个关心的事情，就是诸~是否全相同. 
如果是，则表75因素 A 对所考察的指标 Y 其实无影响.这时我们 
就说因素 A 的效应不显著，否则就说它显著.当然，在实际应用 
中，所谓“显著”，是指诸^之间的差异要大到一定的程度.这个 
“一定的程度”，是从其实用上的意义着眼，而“统计显著性”，则是 
与随机误差相比而言.这一点在下文的讨论中会有所体现.我们把 
所要检验的假设写为 

H 0 : a 1 = a 2 = ■** ^ a k (5.3) 

为检验这个假设，我们作如下的分析：（5.1)中全部 n = m + 
…+〜个观察值各不相同.为什么各的值会有差异？从模型 
(5.1) 看，不外乎两个 原因： 一是各^可能有差异.例如，若 
这就使倾向于大于 y 2 ,. 二是随机误差的存在.这一分 
析启发了如下的想 法:找 一个衡量全部的变异的量，它自然地 

取为 （ 《 = " 1 +…+ n 走） 

ss = - y) 2 ,y - H 13 /n (5.4) 

2=1 > = 1 ? = 1 j = 1 

ss 愈大，表示>^之间的差异愈大.然后，设法把 ss 分解为两部 
分，一部分表示随机误差的影响，记为 ss e ; —部分表示因素 A 的 
各水平理论平均值“，•••，&之不同带来的影响，记为 SS A . 

S 氏这一部分可如下 分析： 固定一个/，考虑其一切观察值 

li ， …，.它们之间的差异与诸七之不等无关，而可以完 

n . 

全委之于随机误差.反映 Y ;1 , …，的差异程度的量是 y ]( Y v 

- Y ) 2 ，其中 71 
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Yi = ( + … + Y in ) / ? ii , i = 1 ，…，々 （5.5) 

Y z 是水平观察值的算术平均，它可以作为〜的估计•把上述平 
方和对/相加，得 


ss , = 

i - 1 j 

SS A 就是 SS 与 SS , 之差.可以证明 

- y ; ) 2 


(5.6) 

k 

SS A - SS - SS , = 

; - 1 

为证此式，只须把分解式 

凡 id — 

- y ) 2 

(5.7) 

- y - (^ - y z ) 

两边平方，先固定/求和，注意 

+ ( Y 2 - 

- y ) 


n . 

1 

m - y ) = (k - 

n 

v ) E(n - : 

= 0 


然后 "对 i : U …， k 求和即可.细察 SS A 的 k 达式，这确可以用于 
衡量诸^之间的差异程度.因是^的估计 ，+ 之间差异愈大， 
Y t 之间的差异也就倾向于大，而由 （5.7) 式看出 ， SS A 之值也会倾 
向于大. 

在统计学上通常把上文的 SS 称为“总平方和”， SS A 称为“因 
素 A 的平方和”， SS , 称为“误差平方和”，而分解式 -SS = SS A 十 
SSp 就称为（本模型的）“方差分析”.名称的来由显 然：像 SS ， 

SS A , SS ； 这种表达式,都是属于样本方差那一类的形状. 

从上面的分析就得到假设 （5.3) 的一个检验 法：当 比值 
SS A / SS , 大于某一给定界限时，否定，不然就接受 Ho . 为了根 
据所给的检验水平 a 确定这一界限，要假定随机误差％满足正态 
分布 N (0， a 2 ). 可以证明，若记 

MS a - SS A /(k - 1), MS , = SS e /(77 - k ) (5.8) 

则在正态假定之下且当 Ho 成立时，有 

MS A / MS e 〜 F k .. Un ._ k (5.9) 

据 (5. 9)，即得 (5.3) 的假设叫的检验 如下： 
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当 MS A / MS e KF k - lin . k ( a ) 时，接受，不然就否定 

(5.10) 

这检验称为 (5.3) 的 F 检验，名称显然来由于 (4.31). 

(5.8) 式中的 MS a 和 MS 。， 分别称为因素 A 和随机误差的 
“平均平方和”.被除数 A -1 和 〃 -6,分别称为这两个平方和的 

白由度 . MS , 的自由度为"-々比较好理解，因按以前多次指出 

)1 

I 

的•.平方和(% - 又) 2 的自由度 为仏- 1，故对 z 求和，得自由 

J - ' 

度（"〗 — 1 ) +…+ (W - 1 ) = . ms a 自由度为々 — 1,初一看 

好像难于理解，因为一共有々个平均值4，…，但我们重视的 
是它们之间大小的比较，因此，不同的有关量其实只有 a 2 - a 1； 
a 3 - q ，…， w q (以 a ! 为基准）等々 - 1个，故自由度只应为 

合 -1 •二者自由度之和为 U - A ) + U —1) = ” -1，恰好是总平方 
和的自由度. 

在统计应用上常把上述计算列成表格，称为方差分析表 


表 6 .1 单因素完全随机化试验的方差分析表 


项 

H 

SS 

自由度 

MS 

f 比 

显著性 

A (例如 

，品种） 

SS A 

k — \ 

MS., 

MS A /MS e 

^ ^ ^ ，或无 

误 

差 

SS, 

n ^ k 

MS e 

— 

— 

总 

和 

SS 

n ^ 1 



— 


表 6.1 中的各栏，除显著性一栏外，都已解释过了.显著性一 
栏是这样 的:把 算出的 F 比，即 A 4 S a / MS ” 与 Fm /0.05) 二 
q 和 F ^ lw 7 _,(0.01)- o 比较■若 F 比>( 2 ,用双星“* ，，表 示 

A 这个因素的效应“高度显著”，意思是，即使指定《 = 0.01 这样 
的检验水平，原假设 （5.3) 也要被否定.如果 Cl < F 比，则用 
-个星“* ”表示 A 的效应“显著”，意即在 a = 0.05 的水平上，原 
假设 (4.25) 要被否定.如果 F 比，则不 加“* ”（显著性一栏空 
着），表示因素 A 的效应“不显著”.当然，这里用的 a =0.05,0.01 
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是比较通用的习惯，并非一定要如此不可.应用者可根据特定的需 
要改用其他值，如(0.05,0.10)，（0.10,0.20)，（0.001，0.01)等. 

例 5.1 设上述品种试验中，包含有 A = 3个品种，分别重复 
4、5和3次，数据为（单 位：斤 /亩） 

品种 1: 390,410,372,385. 

品种2: 375,348,354,364, 362. 

品种3: 413,383,408. 

全部12个数的算术平均为 380.33. 总平方和为 
SS = (390 - 377) 2 + (410 - 377) 2 + …+ (408 — 377) 2 
= 5274:67 

其自由度为 12-1 = 11. 

3个品种各自数据的算术平均，分别为 389.25,360.60 和 
401.33. 因此算岀误差平方和为 

SS , = (390 — 389.25) 2 + …+ (385 - 389. 25) 2 

* 

十 (375 - 360.60) 2 + …+ (362 - 360 .60 ) 2 

+ (413 - 401.33) 2 + …+ (408 - 401. 33) 2 
= 1686.62 

其自由度为 w - 々 = 12-3 = 9. 

品种平方和 SS A 可由 SS 4 二 SS - S 氏算出.但为了验算，常 
单独算岀，再验证式子 SS - SS A + SS , 是否成立（由于计算中取 
的位数有限，不一定严格相同）.如果不成立，就表示计算中有错 
误，必须从头查一查.对此例按 (4.29) 有 

SS A =4 x (389.25 — 380. 33) 2 + 5 x (360.60 - 380.33) 2 

+ 3 x (401.33 - 380. 33) 2 - 3588.05 
自由度为 3-1 = 2 .于是 

MSa = 3588. 05 / 2 = 1794.03, MS ,, = 1686.62/9 = 187.40 
因素 Z 的 F 比为 

MS A / MS e 二 1794.68/187.40 - 9.00 
查表得 F 2 , 9 (0.05) = 4.26， F 2 , 9 (0.01) = 8_02 •因9_00>8.02,故 
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品种效应是高度显著的.以上计算结果列成方差分析表 如下: 


mm 



MS 

比 




■ 

1794.68 

187.40 

9.00 



检验的结果表明 ：不同 品种的产量之间的差异，在统计上高度显 
著. 


就本例而言，如检验的结果不显著，则一般就不再作进一步的 
分析了.因为，既然假设 （5.3) 被接受，各品种的效果视作同一，也 
就没有多少好说的了 .但在实际工作中，最好还不这么简单地下结 
论.有两点还可以考察 一下： 


1. 各水平理论平均值的点估计 I 7 ! ，…，之间的差异如何. 
若这个差异没有大到有实际意义的程度，则加强了上述结论，即各 
品种间的差异，即使存在，其实际意义也很有限. 

2. 若，…,的差异，从应用观点看，达到了比较重要的 
程度，则原假设 (5.3) 之被接受，是由于随机误差的影响太大.误差 
方差的一个无偏估计量是 M $. 可以考察一下之值.若 
从应用的角度看这个值太大，则看来本试验在精度上欠理想—— 
这不止是 （5.3) 的检验问题，还有下文要谈到的区间估计问题.这 
时，如条件允许，应考虑增大试验规模，以及改进试验以图尽量缩 
小随机误差的影响. 

如果检验的结果为显著，则等于说有充分理由相信各理论平 
均值“ ^… ，❸ 并不全相同.但这并不是说它们中一定没有相同 
的.如 k 二3 时，可能 q 与〜之间差別不显著，而它们与之间 
的差別显著.就指定的-对 a u ， a v 之间的比较，可通过求 a u — av 

的区间估计.方法如 下：按 （ 5 . 2 ) 及&服从正态分布的假定，不难 
知道 




Y 
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f 是 

〜)] A 〜 N(0,1) 

\ n u + n v 

iS a 2 = MS e , a 2 为 a 2 的无偏估计.以5代替上式中的 (7 ， 可以证明 

} ' ~一 ' 

'/ 2u , l ° [ ( y ti - - ( a u - a v )]/$ — t n - k (5.11) 

y n u n v 

由此出发，就得出‘的置信系数 1 -a 的置信区间是 

/ ^7 ~ \ / + 72 v ^ 1 (X \ / 

m V ~^ n ^ atn - k \ 2 n aii ~ av 

(号） （5 . 12) 

取^=0.05,算出本例中各〜的区间估计为 


a 1 

— a: 

:: 28.65 ± 16.96 


- a \ 

: 12.08 ±23.65 

CI 3 

— a 2 

.： 40.73 ±22.62 


第一和第三个区间不含0且全在0的右边，这显示和都在 
给定的水平 a = 0.05 上显著地大于 a 2 .第二个区间包含 0. 故虽然 
从点估计上看 a 3 大于^，但在 0.05 的水平上达不到显著性.所 
以，单从统计分析的角度看，如果要在品种1,2,3中挑一个最好 
的，则除品种2夕卜，品种1、3都可考虑.因为毕竟 a 3 的点估计大于 
^的点估计，若无其他的特殊理由，我们就宁肯挑品种 3. 

读者想必已注意到•.区间估计 （5.12) 与第四章中所讲的两样 
本 r 区间估计基本上一致，不同之处 在于： 这里误差方差^的估 

计戶用到了全部样本，而不只是，…， y % 及，…， Y t7I . 如 
果品种数很多，则涉及的相互比较非常之多 . A 如，若有5个品种， 

则总共将涉及= 10组比较，即有10个区间估计要做.这不仅 

很不方便，而且理论上也有问题.问题 在于： 虽则对 •对固 定的^ 
置信区间 （5.12) 成立的概率为1 - a ， 但多个区间（每个区间的 
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槪率为1-«)同时成立的概率就会小于1 区间数愈多，差距 
愈大.例如，取5个品种，有10组〜-~要作区间估计，若每个区 
I ' hH 占计的置信系数为0.95，则这〗0个 Lx : 间估计同时都包含所要 
佔计的参数的概率，将降至 0.6 左右.为了克服这一困难，统计学 
屮引进了 一种叫做“多重比较法”的方法，它考虑到了上面指出的 
那个问题.这个内容已超出本书范围之外，不能在此介绍了， 

6.5.3 两因素完全试验的方差分析 

一般情况下，在一个试验中要考虑好几个对指标可能有影响 
的因素•例如在…项工业试验中，影响产品质量指标 y 的因素可 
能有反应温度、反应压力、反应时间和某种催化剂的添加量.若反 
应温度有 h 个不同的可能选择，其他三个因素分别有々 2 ，心和 
々 4 种不同的选择，则可供选择的试验组合一共有 k l Xk 2 Xk 3 Xk 4 

种，而这个试验也就称为一个幻 x ^ 2 x 々 3 x 幻试验，如果每一可 
能的组合都做一次试验，则试验称为是“完全”的.若只对一部分组 
合做试验，则称为“部分实施”.在实际应用中部分实施很常见，因 
为完全试验往往规模太大，为条件所不允许，且有时并无必要，要 
作部分实施，就有一个如何去选择那些实际进行试验的组合的问 
题.这里面有很多数学和统计问题，它们构成“试验设计”这门学科 
的主要内容之一.本节的第 6.5.5 小节与这个内容有关. 

这种试验，不论是完全试验或部分实施，都有一个随机化的问 
题（或分区组的问题），见 6.5.4 小节.如在上述工业试验中，若全 
部试验要由几个人和几台设备去做，则因人的技术和操作水平有 
差异，设备性能优劣有差异，需要用在前面描述过的随机化方法， 
把要做的试验随机地分配给这几个人和几台设备. 

为书写简便计，这里我们讨论两因素完全试验的情况. 设有两 
因素 /\， B ， 分别有6，/个水平（例如 A 为品种，有々 个； B 为播种 
量，考虑/种不同的数值，如20斤/亩，25斤/亩，…… ）. A 的水平 
/与召的水平 7 的组合记为 o ) ，其试验结果记为 z 二1， ... ， 
= 1，统计模型定为 
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Y tJ = a t + bj + ei”i = \ ，…， k，j = U...，l (5.13) 

为解释这模型，首先把右边分成两 部分： ~ 为随机误差，它包含了 
未加控制的因素 （ A ， B 以外的因素）及大量随机因素的影响.假定 
£( q )=0,0< V ar (〜） = cj 2 < m ，全体〜独立 (5.14) 

另一部分 y ~，它显示水平组合 （ z , ; ) 的平均效应.它又分 

解为三部分是总平均（一切水平组合效应的平均），是一个基 
准 . ％表示由 A 的水平〗带来的增加部分 . +愈大，表示因素 A 
的水平 z 愈好(设指标愈大愈好），故^称为因素 A 的水平 z 的效 
应有类似的解释.调整//之值，我们可以补充 要求： 

ci \ + *** a k ^ 0,^1 + …十= 0 (5.15) 

事实上，如 （5.15) 不成立，则分別以 i 和 f 记各〜的平均值和 
各卜的平均值，把 "换为 " + i 6 ， a t 换为 a ; — a , bj 换成^ / - 
6 ，则 (5.13) 式不变，而 （5,15) 成立. 

约束条件 (5.15) 给了 a iy b } 的意义一种更清晰的 解释: ^>0 
表示 A 的水平〆的效应）在 A 的全部水平的平均效应之上， 

0则相反.另外，这个约束条件也给了 ^, ai 和~的一个适当的估 
计法： 把 y y 对一切/ o 相加.注意到 （5. 15 ) ，有 

S E v , =哗 + i i % 

因上式右边第二项有均值0,即知 】 

k I 

^ .. = Yij/kl (5.16) 

是"的一个无偏估计.其次，有 

/ / 

2j = /// + /a + 2 e tJ 

J 二' 尸1 

于是，记 

J k 

- S Y tJ /k (5.17) 

尸 1 ，■一 1 

知为 fu + a t 的一个无偏估计.于是得到〜的一个无偏估计为 

h 二 - Y.'，i = 1，…，々 (5.18) 
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I 司法 得到匕 的一个无偏估计为 


b 


y ., - y 


l，...，/ 


(5.19) 


它们适合约束条件 + — +b = 0 ，h +… + ^=0. 
下面要进行方差分析，即要设法把总平方和 


SS 


Y .) 2 


分解为三个 部分: SS A , SS s 和 SS P ，分别表示因素 A ， B 和随机误 
差的影响.这种分解的主要目的是检验 假设： 


和 



== 

0 

(5.20) 

H 0B :〜= … = 

- h [ ~ 

0 

(5.21) 


H 0 A 成立表示因素 A 对指标其实无影响.在实际问题中，绝对无影 

响的场合少见，但如影响甚小以致被随机误差所掩盖时，这种影响 
事实上等于没有.因此，拿 SS A 和 S & 的比作为检验统计量正符 
合这一想法. 

所要作的分解可如下得 到：把 y — y •‘写为 


Y 




Y 


y ” - y. ) + (y. - y 


y, - y. - y. 


ij 


Y 


(5.22) 


两边平方，对 z ，; 求和.注意到 


k i 

- y..) - - y 


Sow 


y 




s ( y, - 1 


Y 


Y 


即知所有交叉积之和皆为0,而得到 




t — 


~ y t - ~~ y j + y.. ) 2 
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= SS A + SS B + SS e (5.23) 

第- 个平方和可以作为因素 A 的影响的衡量，从前述 I . _ Y . 
作为义的估计可以理解.第二个平方和同样解释.至于第三个平 
方和可作为随机误差的影响这一点，直接看不甚明显.可以从两个 
角度去理 解：在 SS 中去掉 SS A 和 S 义后，剩余下的再没有其他系 
统性因素的影响，故只能作为 SSy . 另外，由模型 （5.13) 及约束条 
件 (5.15), 易知 

Yij - Y { . ~ Y.j + Y = e {j - e { . — e . } + e (5.24) 
这里面已毫无的影响，而只含随机误差. 

读者可能不很满足于上面的推导，即怎么想到把 - Y .. 拆 
成 (5.22) 式而得出 （5.23)? 对此，我们的回 答是： 

1. 并非在任何模型中总平方和 SS 都有适当的分解，这要看 
设计如何.比方说，如在全部个组合中少做了 1个（即有一个 
%未观察），则分解式作不出来. 

2. 在能进行分解时，方差分析提供了进行分解的一般方法. 
使用这个一般方法也能得到 （5.23) .但是，由于在本模型下通过 
(5.22〉更易实现，我们就不用这一般方法. 

得到分解式 (5.23) 后，我们就可以像单因素情况那样，写出下 
面的方差分析表： 

^ , SS B 自由度分别为其水平数减去1，这一点与单因素情 

况相同.总和自由度为全部观察值数目以减去 1. 剩下的就是误 
差平方和自 由度： 

(kl - 1 ) -（々 - 1 ) - ([ ~ \) = (k - 1 )(/ - 1 ) 

MS 就是 SS 除以其自由度.显著性的意义也与单因素的情况相 
同.如果 A 那一行的显著性位置标上了一个星号，即表示在水平 
0.05 之下原假设被否定.双星则相当于水平0.01，称为高度 
显著.如以前曾指出过的， 0.05 和 0.01 这两个数字只是一种习 
惯，不一定拘泥. 
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表 6 ,2 两因素完全试验的方差分析表 


项 [1 必 自由度 


A SS A 

B SS H 

误左 SSp 

总和 ss 


k - 1 
/-I 

U- 1 )(/- 1 ) 
kl ~ \ 


MS F 比 显著性 


MS a MS a / MS , 
MS b MS H / MS e 


MS ( 


加“采”， 

% * ”或不加 


例 5.2 在一个农业试验中，考虑4种不同的种子品种（々二 
4) 和3种不同的施肥方法（/=3).试验数据为（单 位：斤 / 亩）： 


^>^方法 1 

1 

2 

3 

1 

292 

316 

325 

2 

310 

318 

317 


320 

318 

310 

4 

370 

365 

330 


算出 

y . 二324.25, A . = 311, y 2 . - 315, y 3 . = 316, IV 二355 

! = 323, y . 2 = 329.25， Y . 3 = 320.50 

SS = (292 - 324_25) 2 + … + (330 - 324.25) 2 = 5444.75 
SS A =3[(311 — 324.25) 2 + … + (355 - 324.25) 2 ] 

= 3824.25 

SS B =4[(323 - 324_25) 2 + … + (320.50 - 324.25) 2 ] 

= 162.50 

SS , = 5444.75 - 3834,25 - 162.50 = 1458 
列出方差分析表 如下： 


项目 

SS 

自由度 


F 比 

显著性 

,4 ( 品种） 

3824.25 

3 

1274.75 

5.246 


B (施肥法） 

162.50 

2 

81.25 

0.344 


误差 

1458.00 

6 

243.00 



总和 

5444.75 

11 

— 
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只有品种因素达到了显著性，而“施肥方法”这个因素未达到 
显著性.在 a =0.05 的水平上，没有充分证据 证明： 不同的施肥法 
对产量有显著的影响. 

任一因素两个不同水平的效应差的区间估计，与 （5.12) 相似. 
此处更简单一些 ：如估 计的是，则~ 如估计的是 

乂-乂 ，则 〜 仍是 （ MS 」 1/2 .当6或/较大时，涉及的 
比较为数甚多，因而也存在单因素情况下曾指出的那种问题. 

应用上的一个重要问题，是选择一个水平组合（/， 7 )，使其平 
均产量化十匕达到最大.选择的方法如 下：如 在本例，因素 A 
的效应显著，则选 “使 a t ‘ 在^，…，^中达到最大.从统计上说， 
若〜 和〜 的差异不显著 （gp a r 的区间估计包含0)，则选〜 
也可以.但若无特别理由，总是选使 a ' ， …， a k 达到最大的那个 i . 
因素 B 的效应不显著.故从统计上说，选择其任一水平 j 都可以. 
但一般如无特殊原因，总 是选） ，使~ 在 b '， …， 中达到最大.拿 
本例来说，应选取 ^4，^+=2 •注意在 Y 41 ， Y 42 , Y 43 中，最大的并 
非 Y42 而是^41 - 

还有一点要注意 ：在釆 纳模型 （5.13) 时，我们事实上引进了一 
种假定，即两因素 A ， B 对指标的效应是可以叠加的.换一种方式 
说 ：因素 A 的各水平的优劣比较，与因素 B 处在哪个水平无关， 
反之亦然•更一般的情 况是: A ， B 两因子有“交互作用”.这时在模 
型 (5.13) 中，还要加上表示交互作用的项 q .这时不仅统计分析 
复杂化了，尤其是分析结果的解释也复杂化了.本书不涉及这种情 
况.在一个特定的问题中，交互作用是否需要考虑，在很大程度上 
取决于问题的实际背景和经验.有时，通过试验数据的分析也可以 
看出一些问题.例如，若误差方差 a 2 的估计 MS 。 反常地大，则有 
可能是由于交互作用所致.因为可以证明 ：若 交互作用确实存在而 
未加考虑，则它的影响进人随机误差而增大了 MS e . 

6.5.4 单因素随机区组试验的方差分析 

在本节 (6.5.1) 段中，我们讲述了费歇尔的试验设计三原则中 


的两个，即重复和随机化.第三个原则是“分区组”，就是我们现在 
要介绍的. 

为解释“区组”这个概念，看一个简单例子.设有一个包含3个 
品种的试验，每个品种重复5次.于是一共要准备15小块形状大 
小- 样的田地，这些地可能散布在一个很大的范围内，因而各小块 
的条件会存在较大的差别，以致使试验误差加大.固然我们可以通 
过完全随机化的方法保证不发生人为的系统性偏差，但这并不能 
克服由于这15小块的内在不均匀性而带来的误差， 

因此我们考虑如下的设计，选择5个村子，每个村准备3小块 
地，条件尽可能均匀，但不同村的地块在条件上可以有较大的差 
別.由于3这个数字较小，准备3小块相当均匀的地块，比之准备 
15小块均匀地块，就更容易做到. 

然后我们让每个品种在每个村子里的3小块中各占一块，哪 
个品种占哪一块由随机化决定.这样，我们就有一种不完全的随机 
化••每个村子中的3块地必须种3个品种，这一条不能变（如用完 
全随机化，有可能某个品种在某个村子里占2或3块），但在同一 
村子里则用随机化. 

同一村子里的3小块地，就构成一个区组，区组的大小，在本 
例中即小块地的数目，为3.它正好等于品种这个因素的水平数. 

上述设计就叫做“随机区组设计”.“随机”的含义是在每个区 
组内实行随机化.这设计的优点，从本例中看得很清 楚：由 于每个 
品种在5个村子里各占有一块，即使各村子之间有较大差异，也不 
会使任一品种有利或不利，因此可以缩小误差. 

一般地，区组就是一组其条件尽可能均匀的试验单元.区组大 
小，即所含试验单元个数，等于所考察的因素的水平 数*， 因而在 
每一区组内，各水平都可以实现--次且仅一次.在区组内实行随机 
化_区组的数目则没有限制，可多可少. 


' 满足这条件的区组称为“完全 K 组”.也可以考虑这样的设计，其 K 组大小，即所 

含试验笮元数，比因素水平数少•这种 k 组称为“不完全区组”,其设计问题很复杂. 
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区组的例子很多.例如，要比较一种产品的4种不同的配方， 
每配方重复5次，一共作20次.如果由5个人操作，则考虑到各人 
操作水平不同而带来的误羞，可让每一个人对这4个配方都操作 
一次，抵消人的影响.这时，可以迳直把每个人看作一个区组（严格 
地说，是每人所做的那4个配方构成一区组）；为要比较一种病的 
几种治疗方法，要对一些患者作临床试验.病情不同，病人年龄、身 
体条件等的不同，会带来误差.因此要把病人 分组： 条件尽可能相 
似的病人分在一组，病人个数即治疗方法个数，在每一组内，每个 
治疗方法施加于一个病人（用随机化）时 ，每- 组病人就构成一个 
区组，等等. 

随机区组试验的统计分析，与上段讲的两因素试验完全一样， 
只消把其中的一个因素看作是区组就行.例如因素 A 有々 个水 
平，每水平做/次试验，分/个区组（每区组大小为 k ). 以%记因 
素 A 的水平 f 在第 7 个区组内的试验值（例如，第：个种子品种在 
第^;个村子里那小块上的亩产量），则有模型 （5. 13)，其中 t “ a t ， e 3 
的意义同前，而匕则称为（第 ； 个区组的）“区组效应”，意思是第 j 
个区组优于和劣于全部区组的平均的量.拿上述品种试验来说，若 
某个村子田地条件特别好，则该村子（区组）的~值就高.这样，表 
6.2 的方差分析表，及其计算过程，完全适用于此处.所不同的是 
现在因素 B 解释为区组，而 SS s 则是“区组平方和”. 

由于我们所关心的只有一个因素 A ，故在方差分析表 6.2 
中，我们首先感兴趣的是因素 A 的效应是否达到显著.但区组效 
应是否达到显著也有一定的 意义： 它表明区组的划分是否成功（即 
是否真达到了如下的要求 ：区组 内各试验单元很均勻，而不同区组 
内的试验单元则有较大差异）.如区组效应达到显著，则表明区组 
划分至少有一定的效果，否则就难说，甚或可能有反效果.这个问 
题我们略多说几句.若在 （5.13) 中去掉标志区组的那一项 ~，BP 
当成一个完全随机化的模型去分析，则 SS 和 SS A 仍不变，而 S 氏 
则将成为 (5.23) 式中的 SS B 与 SS e 之和.由此看出 ：如果 MS b < 
AfS “ 指表 6.2 中的 MS e )， 则在完全随机化模型之下误差方差的 
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估计，反而比在随机区组设计之下为低，再加上自由度的损失（完 

全随机化设计之下，误差方差估计的自由度为々（/ - 1) ，而在随机 
区组设计之下只有 U -1)(/- 1))，就使 A 和 F 比要达到显著性 
更难， S 卩：如 果因素 A 确有效应，则当区组划分不当时，会降低发 
现这种效应的机会. 

由此可见，不是在任何场合下划分区组都好.若没有足够理由 
显示不同区组间确有显著差异，则宁肯不分.如以前提过的那个比 
较4种配方，由5个人操作的例子.不同的人在操作技术上总多少 
会有差异，但如没有根据认为他们之间有颇大差异，则分区组不一 
定有利.在实际工作中，这种界限不易掌握，这里只能作为一条一^ 
般性的原则谈一下. 

例 5.3 重新考察例 5. 2,把“施肥方法”这个因子理解为区 

组.即例 （5.2.4) 中的数据，看作为4个品种在3个村子里种植的 

结果.据该例分析，品种 A 的效应在《 =0.05 的水平上达到显著 

(但在 a =0.01 的水平上则否），区组效应达不到显著.更有甚者， 

区组的 MS (81.25) 还小于误差的 MS (243.00)， 说明在本例中分 

区组没有带来什么好处. 

一 

现如果把 (5.24) 当作为一个完全随机化试验的结果，则 
SS - 5444.75, SS A = 3824.25( 与以前相同） 

1 SS e 二 162.50 十 1458二 1620.50 

SS e 的自由度为 4(3 -1) = 8,而 MS e = 1620.50/8 = 202.56. A 的 

F 比为 MS A /MSf 6. 29,也超过了 F 3 , 8 (0.05) 二4.07, 即 也得出 
/ A 的效应为显著的结论. 

6.5.5 多因素正交表设计及方差分析 

例如，若一个试验中涉及4个因素 A ，乃，0，£)，分别有 k ， 
户和^个水平，在效应叠加（无交互作用）的假定下，模型为 

Yijuv = /^ + ~h bj + + d L) + e ijuv (5.25) 

其意义与 (5.13) 相似.如做全面试验，即对 
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\ < i < k A 《 j <： l 《 u < p ，\ < v < q (5.26) 

范围内的都观察了 则方差分析与模型 （5.13) 相 

似.但是，这个作法需要做次试验，这往往太多了.如果因素 
数目更多，则所需试验次数大得不现实. 

因此,在实用中一般只做部分实施，即对 (5.26) 范围内的部分 
G dwa ) 做试验.问题 在于： 这一部分不能随心所欲地取，其取 
法必须保持某种平衡性，以达到以下两个 目的： 

1. 模型 （5.25) 中的有关参数 ii yai . b n c u . d v 等仍能得到适 
当的估计. 

2. 总平方和 SS 仍能进行分解，以列出像表 6.2 那样的方差 
分析表. 

这个问题如何解决，其细节已远超出本课程的范围.在这里， 
我们只介绍一种叫做“正交表”的工具，它简便易用，在实用中广为 
流传. 

看下面这张表 


表 6.3 L 8 (4 X 2 4 ) 正交表 



这个表一共有8行、5列.这两个数字（8,5)有其意义：8表示 
如用这个表安排试验，则必须做8次试验，不能多也不能少 . 5表 
示最多能安排5个因素，不能多，可以少. 

L 是正交表记号 .1^8 表 tk 表有8彳了 .4 x 2 4 表亦：表中有1列 


• 351 • 


(即第 1 列）含有数字1，2,3,4，有4列含数字1,2.其所以称为正 
交表，是因为这表满足以下两个 条件： 

1. 每列中含不同数字的个数一样.例如，第1列含不同数字 
1,2,3,4,每种2个，第 2—5 列都是含不同数字1，2,每种4个， 

2 . 任一列中同一数字那些位置，在其他列中被该列所有不同 
数字占据，且个数相同.例如，第3列中数字1占据1,3,6,8行的 
位置，而在第1列中，这4个位置恰被该列不同数字1，2,3,4各占 
据1次.在第5列中，这4个位置则被该列不同数字1,2各占据2 
次. 


凡是满足这两个条件的表就叫做正交表.至于如何去构造出 
这种表，那涉及许多深刻的数学问题.实用上，把已造出的有实用 
价值的正交表汇集起来附于种种统计学著作中，实用者按需要取 
用即可. 

下面来谈谈怎样利用正交表 L 8 (4 X 2 4 ) 安排试验.这所讲的 
当然也适用于一般的正交表.归纳起来有以下 几条： 

1 •因素的水平只能是4或2，为4的至多只能有一个，为2的 
至多4个. 

2. 若试验要分区组（例如在两台设备上傲），则区组大小只能 
为2或 4. 


3. 为确定计,设试验中涉及4种配方（因素水平4)，2种 
温度（因素 仏水平 2),2 种压力（因素 C \ 水平2)，：^分两个区组. 
则配方这因子力必须标在第1列的头上，和区组都是2水 
平，可在2—5列中任选3列标上，还有一个空白列.设选定表 6.3 
的1 一 4列 （ D 表区组），则设计的意义如下：每一行读 A ，^, C 所 
在的三列.例如，第一行为 （ 1，1，1 ) .这表示第 i 号试验是： A ， B ， C 
都处在1水平.第二行为（1，2, 2), 表示第2号试 验为： / V 处在1水 
平， B ， C 都处在2水平.第七行为(4，1，2)，表示 A 处在4水平 ， h 
在1水平， C 在2水平， 等等. 区组划分则看 D 这一列.同一数字 
属于一个区组.在这里， /) 列的数字1在第1,4,5,8行，故第1,4, 
5,8号试验划在一个区组内，剩下的第2,3,6,7号试验划在一个 
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区组内. 

这样一个设计必能达到表 6.3 前面提出的两条要求.第1条 
很容易证明，第2条不能在此细证了 .考虑 (5. 25)，其中（ = 4，/ = 
p = qH 、\ a li b J , c liJ d v 等也加上约束条件(类似 (5.15)) : 

4 2 2 2 

= 0, ^ = 0, XI G - 0, T] = 0 (5.27) 

i 1 i i 

按 （ 5.2 5) 写出上述 8 号试验的 方程： 

川 1 = " + a\ + h\ + r] + d[ -i- emi 

V ]222 ~ f 1 十 + ,)2 + 〔 2 十 ^2 ^ 

^2112 - ^ 十 a 2 十 十 q + “2 十 
Y 2221 二 "+ “2 + + (2 十 t/i 七 6^2221 

】’3121 二 "十 “3 十 ^ C 2 + d { ^ e^2i 

》 ’32J2 ~ /^ + a 3 + 6 2 -+■ Cl + ci 2 + e 3 2 i 2 
y 4122 二 "+ + 〔2 + ^2 + ^4122 

^4211 = P + a 4 + 十 + ^4211 

把这 8 个方程相加，各 y 之和记为 S y, 各^之和记为I 6■，则 
由 （5.27) 易见 

X y = 8" + Xle 

由此可知 Y 2 Y/8 为 "的一 个无偏估计. 

把第1列为1处的那些 y 相加，得（仍用 (5.27)) 

Y"u + ^ 1222 — 2/^ +■ 2 ai + ^nn + ei 222 

由此知 ，（y llu + 匕 222 )/ 2 -"7为〜的无偏估计.顺此以往，对任 
何〜，~，〜，<都可求得其无偏估计.例如，要求^ 2 的无偏估计， 
只须把 c 所在那列数字2对应的试验值相加，用 （5. 27)，得 

^ 1222 + ^2221 + ^3121 + ^4122 

二 4" + 4 c '2 + ^1222 + ^2221 + ^3121 + ^4122 

于是得到（ Vl 222 + ^2221 + >"3121 + >^22 ) 岸 - T 是 Q 的一个无偏 
估计. 

总之，在任何一个正交表中，某因素水平/的效应（例如本例 
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的的估计，等于该因素水平；的所有观察值的算术平均，减去 
全部观察值的算术平均. 

接着就是计算各因素的平方和，例如 SS A .如 A 有々个水平， 

其各水平的效应化的估计记为 a 、 ，…，&(其计算已如上述），又 
总试验次数为《，则 

SS^ = +… + (5.28) 

误差平方和可以由总平方和 ss = 减去各因素的平 

方和求得.其自由度等于？7 - 1减去各因素的自由度——每一因 
素的自由度等于其水平数减去 1. 

例 5.4 设表 6.3 中各次试验的结果如该表右边一列所示， 
我们来作出上述计算. 

1. 首先算出全部试验值的算术平均 

y - (134 + 220 + …+ 320)/8 - 250 

及总平方和 

SS =(134 - 250)2 + (220 - 250) 2 + …+ (320 - 250) 2 
=32832 

2. 估计各因素 A ， B ， C 各水平的效应及区组 （ D ) 效应 
^ = (134 + 220)/2- 250= -73, a 2 - -35 

S 3 = 2 H 79 

这四者之和应为0,这可以作为计算是否有错的一个验证 .又 

b 1 — — 18 ,62 = 18 ； c 1 二 — \1 ， Z 2 二 \1 ;d\ = - 9 ,di — 9 

3. 按公式 (5.28) 算出各效应及区组平方和 
SS A =8(73 2 + 35 2 + 29 2 + 79 2 )/4 = 27272 

SS B 二 8(18 2 + 18 2 )/2 : 2592 , SS C = 2312, SS D = 648 

其自由度分别为3, 1,1,1. 误差平方和为 

SS e 二 32832 - 27272 - 2592 - 2312 - 648 - 8 
其自由度为（ 8 _ 1) _ 3 — 1 — 1 — 1 二 1 . 于是 

MS A = SS A /3 二 9090.67, MS B = SS B ， … ， MS e = SS e 
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列出方差分 析表: 


项 H 

SS 

自由度 

MS 

F 比 

显著性 

A (配方） 

27272 


9090.7 

1136.33 


iK 温度） 

2592 

1 

2592 

324 


CUJ 1 力） 

2312 

1 

2312 

289 

* 

/)( k 组） 

648 

1 

648 

81 


误差 

8 

I 

8 



总和 

32832 

7 


— 



查 F 分布表，得 

F 3)1 (0.05) = 216, F m (0.05) = 161 

F 3(1 (0.01) - 540, F 1>1 (0.01) - 405 

故配方这个因素的效应达到高度显著，温度和压力这两个因素则 
达到显著，区组效应未达到显著. 

某些正交表 （ 不是所有的）也可以考虑因素间的交互作用.这 
时，表头的安排就不能像无交互作用时那么自由，而要受到某种规 
则的限制，具体规则由一个与该正交表配套的“交互作用表”给出. 
这些都已超出本书范围，不能在此多讲了. 

附 录 


A . (2.22) 式的证明 

注意到两个行向量 （ n 维) 



° 2 \ s x ^ s x ^ s x I 

都是单位长（注意 （2.16) 式）且正交，可以补充72 -2 个行向量办；， 
… ，乂， 使方阵 
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为正交方阵.作变换 


Zjl 

t 


z, 

_ 

■ 

— JB 

y 2 

1 

豳 

• 

• 

畢 

7 


Y 

- 1 n J 


则因为独立，各有方差为 W 的正态分布，按第二 
章的附录 a 中的引理的证法，易证得 A ，…，乙,，也独立，并各有 

方差为 <7 2 的正态分布 • 

现 证明： 

E(Z t ) - 0,/ >3 ⑴ 

为此，记= ( h ，…，匕 „) ，则 

E(Z t ) 二文 b 忐⑻： E^(A) + ^i(X, - X)) 

尸 1 J =~ 1 

:如它 h + /^i S b i} (Xi - X) 

因为匕 与 b 、， b 2 都 k 交，上式右边两个和都为 0. 由此证明了 （1) 

式 ■ 

另外注意 

Zi =-^(Yi + + YJ - / 7 zY 

n 


1]( X , - X ) y ? 

，，二 i 

z \ - X ) y . - i ( X , - X ) y z 

^ X i - 1 /二 1 



m x ) y , 
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由于正交变换使平方和不变，有 

Yt + ••- + Yl = Zf + ■•• + Z ； 

= nY 1 + - X)Yi + y^j 2r] 

/ = 1 / 二 3 

将此式与 (2.23) 式结合，得 

- Ezj = a 2 幺 Z ) 7 / a 2 

i = 1 i ^ 3 i = 3 

由于 Z 3 /^, Z i 1 A ,"*, Z „ A 是独立同分布的 iV (0， l ) 变量，有 （Zi 
+ …+ Z \) / ( j 2 〜 xl -2 -于 是证明 /(2.22). 

B .(2.16) 式的证明 


n 


由于4/2，…，厶独立，知 厶与 独立.又厶为有方 


差 CT 2 的正态分布而乏] z ]/ a 2 — xi -2 ，故按 f 分布的定义有 


Z 2 - E ( Z 2 ) 


a 



n 


n 


-2 a 1 ] 


Hz ] 


^ n~2 


⑵ 


n 


7} 


但 YjZ]/(n —2) 二 S 的 /(” _2) 二 5 2 ，而因 Ehv ，有 


- E(Z 2 ) -- E(hS x ) = (h _ A)S X 


故 


z 2 - E(Z 2 ) 


a 



n 


n - 2 ] 



(h - AM5S; 1 ) 


此式与 （2) 式结合，即证明了 （2.26) 


习 


题 


1. 在模型 (2.6) 中用配方的方法（不求助于求偏导数），以决定最小二乘 
估计 (2.12) 和 （2. 13)，并由此得岀残差平方和的表达式 (2.23). 

2. 在模型 （2.6) 中，假定 （2.5) 成立，仍记残差为心，证明以下各 

占. 

4 、“ * 
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( a ) £ (次 ） = 0, z * = 1 ，…， n . 

( b ) 化，… ，& 不相互独立. 

( c ) Var ( 8；) - ( 1 —丄 —（ X , _ X ) 2 / S 2 ) a 2 

( s 2 = iu , - x ) 2 ) 

r - 1 

(d) Cov( S t ~ - ( ~ + (X ; ~ X) (Xj ~ X) /S 2 ^ (J 2 y i j . 

3. 设样本 X '， …， X n 〜 N ( a ，< y 2 ) ， Vi , , Y rn 7 N ( b ， o 1 ) ， a ， b ， c 2 都未 

知，为要估计 a 或检验假设 H u : 6 - a 二 c ( c 已知），可利用线性回归的理 
论去做.指出具体怎样做的办法. 

4. 考虑过原点的线性回归模型 

Yy — bX , + e t — 1， . ”，72 

误差 q ， …，& 仍假定满足条件 (2.5). 

( a ) 给出6的最小二乘估计6 . 

( b ) 给出残差平方和 i ? =公朽的表达式，并 证明： K /(«_ l ) 是误差方 

差 P 的无偏估计.这与不一定过原点的模型有何不同？为何有这个不同？ 

( c ) 用附录 A 中的方法，证明当误差服从正态分布时，有只 /P 
'( d ) 给出回归系数6的区间估计. 

5. 考虑回归模型(2.4)，而 q ， C 2 为已知常数.假定 （2/5) 且设误差服从 
正态分布，求 cia + c 2 b 的区间估计. 

6. 从一元线性回归的讨论中出现几个有趣而初等的数学问题.现列举 
如下请读者 考虑： 

( a ) 由第2题的 （ c )， 根据方差非负，可 知： 对任意 u 个实数&，…， 

有 

( X ,: - X ) 2 / X ； ( X , - X ) 2 < 1 -丄 ， f = 1,？ 

1 J-l n 

等号在何时达到？ 

( b ) 在 6.2 节 6.2.3 段末尾处提到的断 言：若 A ^， X 2 ，…，是一串实数， 
记兄二 ( X 彳… + Xj / n ， S 2 „= ^( X t - X ) 2 ，则对任何固定的实数《，有 

i - 1 

U -叉 ,) Vsi —0 当 n — oo . 这个事实的统计意义已在 6.2 节 (6.2.3) 段中说 
明过了. 
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( c ) 我们已 证明： 在模型 （2.6) 及假定 （2.5) 之下， Vard ) 二 c 2 / S 2 ， S 2 
二 - X ) 2 .当然，方差愈小愈好.故如限制试验点 X ,只能取在某有限 

I -] 

区间 [ A ，/3] 内，就有一个如何配置这些点，以使 S 2 达到最大的问题.证明这 
问题的解 是：若 72为偶数 2 m ，则取 Xi ，…，中有 m 个 A 1 km 个若 n 
为奇数 2 m + 1,则取 X !，…，中有 m 个 4( 或 B )， m 十1个 B (或 A ). 不 
过，在实用上，这个设计并不一定被采用，除非我们对回归函数为线性函数这 
一点绝无疑义.因为，这个设计只采用两个自变量值，它无法借助于观察数据 
去发现真实的回归函数与线性函数的可能的偏差. ' 

7. 证明 6.3 节 6.3.1 段末尾处多元回归系数最小二乘估计的三个性 
质. 

8 . 设 ( 入、 ， V "!) ，…， （ ， I ) 是从二维正态总体 iV ( a ， 6 ， erf ， a 】 ， (0) 中抽 
出的样本，以 r 记样本相关系数.用以下的思路证明当/0二0时， y ^^ r / 

n / TT 2 〜~- 2: 固定&，… ，尤 ，考虑 R ，…，1；的条件分布，因为0 = 0表 
示乂， K 独立，故 y ,,"*, 的条件分布即是其无条件分布，即 K ，…， 

独立，有公共分布这可写为回归模型. 

Yi = b + + e t = 1, * * * (1) 

回归系数 A 二 0 ，q 〜 ]\/(0，^)，7 2 = 4.然后在这个模型中使用（2.26)(记住 
卢 I 二 0) .证明 （2.26) 式左边正好就是 \ fn ~2 r /V 1 - r 2 . 这样就证明了在给 
定，…，的条件下，八 / T ^ 2 的条件分布总是~_ 2 与 

总无关.因此 ^/ T ^ r / vT ^ T " 2 的无条件分布就是.其所以要在给定 
，…，的条件下来考虑，是因为线性模型 （1) 有关的理论，特别是 （2.26) 
式，都是在 X ,为常数的情况下给出的， 

9考虑下面的统计模型 ：样本 Xu ，…， X ” h ，…， L 独立， X , 〜 /VU 

+ a , a 2 ) , V , - N ( ^ + 6 ? tr 2 ) , I = 1，…， / z .这里 d 、， …， d n 和 a ，6， tr 2 都未知， 
要检验假设 H {) ：a = b . 

( a ) 试通过使用乙 = Y ) - X ,,〖=1，…，"，用，检验来处理这个问题. 

( b ) 说明： 这个模型事实上是一个随机区组试验模型，共有„个区组，区 
组大小为2.写出化到这样一种模型的过程. 

( c ) 用随机区组模型的 F 检验来处理 Hu 的检验问题3正明它与用 （ a ) 中 
的方法得到的一致. 
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10. 验证一下，下面的表是正 交表: 


行号 

1 

1 

2 

3 

4 

5 

6 

7 

1 

1 

\ 

1 

1 

1 

1 

1 

2 

1 

2 

2 

1 

1 

2 

2 

3 

1 

1 

1 

2 

2 

2 

2 

4 

晒 

1 

2 

2 

2 

2 

1 

1 

5 1 

1 

2 

1 

2 

1 

2 

I 

2 

6 ! 

1 

2 

2 

1 

1 

2 

2 

1 

1 

7 | 

2 

1 

2 

2. 

1 

2 

1 

8 


2 

1 

2 

1 

1 

2 


按正交表命名法，这个表的名称应是什么？它在用来安排试验时受到哪 
些限制？现如有三个两水平因子 A , B ， C ， 共做8次试验，并分两个 E 组做， 
这试验如何用这张表安排？写出其方差分析表. 
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习题提示与解答 


第一章 


3. B . 

4. 一种可能的表法是 

A ! 十…+ A 2 -AJ + CA 3 — (Ai + y ^)] 

+ "•+ [ A „ - ( A | + .*. + **• A „ _ i )] 

5. 先把 A + B + C 表为互斥事 件和： 

A + B + C - A + (B - AB ) + (C - AC - ABC ) 
再证明 P(B - = P ( B ) - P ( AB ), P(C - AC - ABC ) - 

f ^ O - KAC ) - P ( ABC ：)， 及 P ( ABC )- P ( BC ) - P ( ASC ), 
整理即得. 

6. 充要条件是 PUhPW ) 中至少有一个为 0. 

7. 不一定.成立的充要条件是 P ( B - A ) = 0. 

8. 反复利用以下两个重要公式 

_ " ___ n 

AlA 2“ 人二 X )尤 ■，八 1 + A 2 + …+ A „ 二 T 1 A , 

，二 1 

(这两公式请自证一下） 

9. 考虑一个盒子内含有三个球，其上分别标有数字1，2,3.现 
从中随机抽出一个，记事件 

抽出1或2球 }， B = 丨抽出2球 | 抽出2或3球1 

10. 第—‘ 问：直 接计算 P ( C(A + 朽））= i ^ C/O + PCCB ). 第 
二问 ：仍算 尸（(：1(焱+ 3))，但把.4 +召表为 A + B = ( A -/ i ) + 
AB + ( B - A ). 设法去证明 

P ( C(A - B )) = P ( C ) P(A - B ) 

P ( C(B - A )) = P ( C ) P(B — A ) 

前一式可由 P ( CA ) = P ( C ) P ( A )， P ( C - AB ) = P ( C ) P(ABrW 
边相减得到，因 C 4 — CAB = C ( A — AB ) = C ( A — 8)，及 P ( A - 
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11 . 例：一 盒中有 12 个球，分别标有数字〗， 2 ,…， 12 .现从其 
中随机抽出一个，定义事件 

A = i 抽出1，2,3号球之一丨，3 = I 抽出2,3,4号球之一 1 
C = | 抽出2,3,5,6,7,8,9，10号球之一丨. 

12 . 前一部分的证明与第 10 题的第二问类似，反例可用 11 
题的例子. 

13 . A = A 1 (Ai + A3 )( A4A5 + A5A5 乂 4 八 6 )用乘法定理， 

注意 

P (^ 4^5 + A 5 A 6 + A 4 A 6 ) - P(A 4 A 5 A 6 ) + P ( A 4 A 5 A 6 ) 

* + P ( A a A 5 A ,) ^ p ( a 4 a 5 a 6 ) 

逐项用乘法定理，答案 :320/729 = 0.439. 

14. 反 例:一 盒中有5个球，分别标上数字1，2, …， 5.现从中 
随机抽出一个，定义事件 

A = !抽出1或2球 1， B 二彳抽出2或3球1, 

C - | 抽出1或3球 I 

16. 需要证明 

…= P ( B l ) HB ^)- P ( Q l ) (1) 

I - r 1 2 r 

对任何满足条件 2^ r ^ n 的 r 及 zj 〈…< i r <n .以々记 
. ，…，中马二 A : 的_；的个数.对是实行归纳法.若々= 0，则由 

■ r J ) 

独立性定义知 （1) 式对，现设々= 7/2时 （1) 式对.来证明当+ 

1时 （ 1 ) 式也对.'，…， B 彳中有 m +1个有 “ bar ” 的.为方便计且不 
失普遍性，不妨设尽有 

1 I 

B t B t 二 B t …+ A t 

*- -J t 1 Z r I 2 r 

右边两事件互斥，故 

P { B l ： - B lr ) = P { B l 2 - B lr ) - P { A l B li - B i ) (2) 

因为在，…，中只有爪个加 “ bar ” 的， A , 、，仏，…，战中也只 
有 m 个加 “ bar ” 的.故由归纳假设，知 
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P ( E , … B t ) = P ( B t )- P ( B i ), 

2 r 2 r 

F ( A , B t …氏 ）= P ( A Z ) P{Bi )'- P { B l ) 

'12 r 1 2 r 

以此代人 （2) 式，并注意1 - P ( A Zi ) 二 = 尸 （')，得 

P ( B i …坎） = PiB , ) 

1 r 1 r 

于是完成了归纳证明. 

17. 总排列数为4! =24.分别计算放对1，2,4封的排列数为 
8,6和 1.答案：9/ 24 = 3/8. 

18. 用全概率公式，对丙而言，分四种 情况： = 丨甲抽中，乙 
抽中丨 ， A 2 二丨甲中乙不中丨， A 3 二 { 甲不中乙中丨 ， A 4 二 i 甲、乙都不 
中丨.答案：2/10，17/55,41/1〗0.以丙抽中的可能性最大. 

\9. U \) 十韻卜 ( nmp \ Y /( np 、\ 

20. 再继续赌四局，排出一切可能情况，答案为 11:5. 

21. 答案为30/91.其所以不同，原因在于，仔细一想可 知：知 
道某特定骰子出么，比知道至少出一个么，要更有利于多出么，因 
而更不利于得出大的和数. 

22. 由对称性考虑，可让选定的一男孩固定一个位置.剩下的 

K + m 个小孩归结到直线排列的情况. 

23. 第一个事件的对立事件为“每方各有一张 A ”. 其概率为 

4! .后一事件比较复杂，要分解为一些互斥事件之 

和，，即如 

!东方 2 A ， 西、南各 1 A 丨等，共有 4 X 3= 12 种； 
i 东，西方各 2 A ; 等，共有6种. 

刖-事件醉为4! ( 2 ) n , ( 12!^13]/品〉4,后-事件的概率 

为 0. G ). 而箭 W 蟲，答案: 0 . 719135654 _ 

24. 最简单的做法如 下：从 对称考虑出发，不妨把甲取的点定 
在图1中的 A 点处.这时，为了使题中所说的事件发生，乙所选的 
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点必须在图彳中的 BAC 弧内，且 ZBOA 和 ZOM 都是 120°. 故 


概率为 2/3. 



图1 


25,做法大体上类似例 2. 5.答案为 

- ZI - . --/’7 8 二 0 1294 

2!1!1!3! 2!2!3!1!" 

27. (a) 所求概率为 （1 - 化）… （1 - 
九） .利用1 -了 <e^ 当 x >0.(b) 所求 

概率不超过…私， IT 求和的 
范围为1 < “”但在(/^ + 

…+ p n ) k 的展开式中，每一个这样的项 
都出现々！次. 


28. 不可以那样算，理由与21题同. 
30. 甲胜概率为（用全概率公式） 


a 二 S 5 


7\ - 


2 n {n + 1 ) 


不难证明 p<l/2 .因为 


P 


-丄 


4 12 


2 ^j 


n 


- 1 <丄 

2 w (n 十 1) 3 


4 


y 丄 


n = 3 


I 

3 


1 1 

■_ • -- 

4 4 


< 1/2 


因此这规则对甲不利.（户的确值为 21og2- 1,试证明之， ） 


Afr 

弟一早 


1. 用公式00 0—" + (—1)0()(见1.2 
节） n 

2* 先用全概率公式得出九的逆推公式 

p n = p (\ ~ p n - { ) -h (1 - p ) p n — x 

此式推导 如下： 若第一次试验 A 发生(概率为 p )， 则剩下 n -1次 
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试验应岀奇数个概率等于1 - .若第一次试验中 A 不发 
生（概率为 1- 户），则剩下 n ~ l 次试验应出偶数个 A ， 概率等于 

又当《 = 1 时 />„ ==1 _ /?，而女 [1 + (1 _2户 ) H ]当 n = 1 
时也为1 -/?. 故当《 = 1时正确.设当 w - 1时正确，则 p n - x = 

音[1 + (1 - 2>)” -1 ].以此代入上式，即得九 = -^[1 + (1- 

2 p )〃]. 故当 n 时亦正确. 

3 .答案为 ( 2 二 ) /2' 用公式公 ) 2 = () .此式可由第一 

章 (2.5) 式中令 m 二 k = n ， 并注意 ( , j = I W ) 而得到 • 

4. 赌博至多在 2 a - 1 局结束，让二人赌 2 a -1 局，则只要甲 

胜《局或更多则甲胜，否则甲败，故甲胜的概率为 2 jj 6( f ; 2 a - 1， 

i -a 

P ) •当 P 二 1/2 时，由 6( i ; 2(2 — 1,1/2) = b (2 a — 1 — /; 2 a — 1, 
1/2) 即知上式为 1/2 .另外由二人赌技相同 （/? = 1/2)，及胜负 
规则对二人是公平的，知二人有相同的获胜概率，即 1/2. 

5. 考察比值 


b(k;n^p) — k + \ 1 ~ p 
b{k + \ }, ?1 y p) n — k p 

如果 +1)—\ 则此比值总若夕>以(77 +1)， 则总 <1. 
若 U + 1) —kpc ” /U +1 ) ，则当々小时大于1，从某个々开始 
则<1.其转折处即达到最大之 t 为 [(» + i )^]( U ] 表不超过 a 
的最大整数），当 U +1)P 不为 整数； 为 U + 1)/>及（77+1)户-1 
(在这两个值处同时达到最大），如 （H +1)/>为整数. 

6. 以 A ：； 记“恰有第盒不空，其余都空”的概率.先证明所 

求概率 ( H & 2 . 而 后证明 

％㈤ |° 

“全在1，2盒内”的概率一“全在1盒内”的概率=“全在2盒内”的 
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概率）. 

7. (a)/> 大了，X取大值的概率上升而取小值的概率下降.故 
|乂<^丨的概率当 p 上升时只能下降 .（b) 考察一个试验，有三个 
可能的结果： A l5 A 2 , A 3 , 其概率分别为 p \ ypl ~ p \ ^ 1 — 户2,记 
A + A 2 .以\记 n 次试 验中次 发生的次数“ =1，2,则 
B ( n ， p')，Xi + X2 〜 B (， i ， p 2) .故 

k 

P(Xi ^ k ) ^ , p \) , 

J -0 

k 

P(Xi + X 2 < , pi ) 

i = 0 

因为当 X { + X 2 ^k 时必有々，故 P ( X 1 + X 2 <^)< P ( X l < 
々） ，即当 p ,< p 2 时有 

k k 

， p 2 X jp x ) 

i-0 i 二 0 

( C ) 写出 f ( p ) = il n ) p i (l - p ) n ~\ 逐项求导数.注意 

/ ^ 0 \ Z / 

d (7 )/(1 - p) n ^/dp 

二 - P ) n - 1 ~ (n - i ) • _ p )”- i ] 

令卜0,1，…，左相加，只剩下一项 -U - W 1 — 卜\ 

证明它与- 是 ! - u ~ t )^ k ~ l dt 的导数同'又当 

P ^ 1时此积分为0,而 P ( X <々） 也为 0( 因々< ^).故二者必相 
等). 

8. 由于3(2,/>)有三个可能值0，1，2，而 X 1? X 2 独立同分 
布，故必都只有2个可能值（否则 X 2 + X 2 的取值个数可 
能会小于3或大于 3. 这两个可能值必为 0,1. 因为，设可能值为 
'厶，<2 〈办 ，则 2a = 0,2办= 2，a + 6二 1 •记 pi = P(Xi = 1) r p 2 = 
P(X 2 = 1) 则 
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p 1 ^ — P{X.] + X 2 ~ 2) — P(X1 ~ 1)P (Xi — 1) ~ p} P 2 

故户 2 = 仿上推理，有 

p 2 = Pip2，(l - P) 2 = (1 _ Pl)(l - Pi) 

2 p {\ - P ) = p \(\ - p 2 ) + (1 — Pl ) p 2 

由此二式，不难解出 P \ — pi — P . 

独立，分别服从波哇松分布 P(xO 
和 PU 2 - Ai )， 则 X , + X 2 服从波哇松分布 P ( A 2 ) .再由 P ( X !< 
0>尸（& +入 2 <々）即推出所要的结果 .（ b ) 写出 P ( X ^ k ) - 

k I r co 

y ； e - ; AV ?!, 证明其导数等于 - e x X k / k \. 故 士 t k ^ f dt - 

!为一常数 C (与 A 无关）.但当 A — 0时，它趋于0,故 

/■二0 

C = 0, 

11. 与第5题相似，考察比 p 八 k )/ p 八 k +\). 

12. 直接计算 ; N ， /)(，=仏0 —/> 2 )+ (1 — 

/> 【 ） 九 ）， P ( £ : 而） 二 ^ (/m U 12 ) )H (1 _ 

P \) Pl) n k ( p) N U ( P ~ PiPl — 户 i)(l — 户2)，是（4,£0.卜 
( A ， B ) 发生的概率）.再算出 

得（注意 p + p ^\). 直接方法 ：注意 P ( (A ， 否 ）I (A ， 豆 ） + ( A ， 
B )) = p .敌在 & 发生的条件下 ,( A,B ) 出现的次数 X 的条件分 
布，就是 B ( n ， p ), 

13. 把负二项概率 （ l . il ) 记为 dG ; r ，/0 .所要证的结果当 r 
二1时对.设当 r ~ k ^ \ 时对，则 X 1 + *•_ + &_ i 服从分布 b ( i ; 
6-1，户）把入' +…+ &表为7=；^ +… + 卜按上 
述归纳假设，及 Y 与^独立，有 

i 

+ …+ 义= 0 = V p ( =： j ) P ( X k = i ~ ]) 

尸0 

i 

= y ^ d ( j；k - i ， p ) p(i — py— j 

尸 {} 
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为要证此式为 d G ，々，/ >) ，只须证组合等式 

釗 : K:: 1 ) 

但此式已在第一章例 2.4 中证过，那里写为形式 


E 





令 w - 


~ r —2 f r — j 


m 二 f ，并注意 



r 





图 2 


-直观上很容易解释，以 r 二2为 
例，如图2, •表示 A 不发生而 X 表示 
Z 发生.在 A 发生第2次时， •的 个数 
为& + X 2 . 由于各次试验独 立，； C t ， 
X 2 必独立且都服从几何分布. 


/z. + r\ /z + r — I \ 

14 •户 1 = ( r j〆 （卜 P ) Z ， 户 2= ( r X •因为 

/ / + r \ / z + r — 1 \ 

有 (^ ^_ 1 j ( 除非 / 二0)，故总有/>〗 >/> 2 •理由很简 

单 :计算 仏时多了一个 限制： 最后一次试验 A 必出现，而算 Pl 
时，并无这个限制. 

15. 用全概率公式易得 


P(Y = k ) 二 SP(X - n)b(k;n,p) 

tj — k 

二 S(e^AV»!)|j j/(i - py~ k 

_ { xp) k ^~ x [ A(l - i )) Y~ k 
一 k ! ,frl (n - k)\ 

而式中的和等于 

16. 计算 P ( X + Y < w ). 用全概率公式，并以 f ' 记 X 的分布 
函数，有 

P(X + Y < w )= P(y - a x ) P{X ^ a x <, u ) 
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+ P(Y = a2 ) * P{X n ) 

— p i F(u — a\) + pjFiu 一 《 2 ) 

对 《 求导数即得，推广到多于两个值的情况 显然. 


17. 结果为 h /( *iX’ ， z / tx ’）zc_ — 1 die，. 

18 . 当+中有为 0 的时，不妨设 a t = 0 .这时 

p(xy = 0 ) > p(y - o) - > 0 

故 XY 不能有密度函数（否则应用 P(XY =0) 二 0) .如 a t 都不为 
0,则仿16题做，只须注意 


PiaiX ^ u ) 


jF ( u/ai ) ,ai > 0 
{l - F^u /aj) , <C 0 


F 为 X 的分布 函数， 二者对 i 的导数都是 

\ai ^ \ai j 

19 . 记 F(_r) 二 • 当 : r<0 时， F(x) =0 •若 x >0 ,则 

注意 

I y < : 1 二 I log y < logx ! 

= i (log y - a ) /cr ^ ( hgT - a)/a\ 

故 F(jt ) = < P ( (log.r — a ) /cr). 对 : c 求导得 /(x) • 

21 •记 F (: c ) 二 P(Y<x )， 则 F(x) 二 0 当 1 ，二 1 当 

: r>l . 若 UI<1 ， 则在基本周期 [0.2tt) 内，事件 i Y<:rl 等于 Urc- 
cos x^X^ 27：- arccos 1 丨，其中 arccos x 在 (0 ， ?r) 内，故 

oo 

i y ^ ^ 1 = X) [27 tz + arccos x X ^ 2 tt( i + 1) - arccos x _ 

j 二一 <K> 

于是 


F ( x ) 二 1>(2仏+ 十 1) 十 arccos i ) — ^(2 ttz — arccos x )] 

/ - : 一 CO 

逐项对 I 求导，即得 /(X). 

22. 注意丨 = /[ Xd , 于是得 Y 的分布函数为 

v - 1 

n 

尸 （ x ) .对 Z ， 注意 = 1—1 丨.于是 P ( Z <： r ) = 

i ' 1 
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1 一 P ( Z > x ) =1 — (1 - FU ))' 对 t 求导得密度函数. 

23,直接证明，只须注意本题 FU ) 二而 
/U) 二 1/0(0<1<沒），其外为0乂直观看法 ：0 — maxd ，…， 
X ti ) 为 的最右点与边界6的距离.而 mind ，…，:>0 


是 X ,，-, X ,的最左点与边界0的距离 .二 者性质一样只是看的 



方向不同.由于均匀分布对区间内各处 
一视同仁，这两个距离的概率分布应当 
—'样. 

24. 考察事件丨看 
图 3, OA 为第一象限分角线， A 点的坐 
标为 U ， w )， OB 和 OE 之长都为 v ， 而 


OBCA 和 QE / M 都是平行四边形，稍加 
思考即不难发现. 


i y 2 <^i =丨 （ a ， x 2 ) 落在上述两个平行四边形内} 

故 


P\ Y { u , Y 2 ^ v\ = e~ r i _ ^dx 1 dx 2 

OBCA 



OEDA 


由对称性，这两积分之值同，用累积分法算第一个积分（先固定 Xl 

对 j : 2 积），不难得出上述两积分之和为 （1 - e -2w )(l -e — 〃）. 由此 
证明了题中的所有结论. 

25. 用归纳法，先肯 定：当 7 2 =0时，不论 T >0 取什么值， 
P(X = 0) = e — AT 成立.这很明显，因为 X =0 意味着最初那个元件 

的寿命>了，其概率 rXe~ Xt dt = e 

现假定公式 P ( X = n ) ^ e ~ XT { XT) n /7 i ! 对 ， z = 々 - l 成立， 
而计算 = •以 & 记第一次替换发生的时刻，则在给定 Xi 
的条件下，在时段 （Xh : T ) 内要发生々 - 1替换.这时段之长为 
T - xt . 按归纳假设，在这段时间内恰好替换& - 1次的概率，为 
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e — A ( T — V ( a (: — — l )! 由于 & 只能在 （ 0 , t ) 内且 

其概率密度为 Ae h ， 故 

p(X = 々） =- x { )) k ^ l dx { /(k — 1)! 

」 (） 

易见此积分为 e j T ( AT ) V 々！， 于是证明了公式当 n 二 k 时成立， 
而完成了归纳证明. 

27. 用公式（4.10)算出（叉+此，乂~6幻的联合密度 g ( u . 


xO . 再决定使这联合密度可拆成两个函数 ^ U ) 和 g 2 ( v ) 之 
积，答案4二 q 4 t 2 . 此题有其他简单方法，见第三章习题. 

29.设 Y ,,--, Y , 独立同分布，各服从标准正态 
分布 iV (0， l ) .记 




P(Z!>F,,„(a)) = a 

故有： PU 2 >々^ fri ( a ))= a ，另一方面，又有 

P(Z { >F Un (a)) = a 

由这两式，及，即得 

30. 易见 2 2 xydxdy = 0. 故为证明 g 是密度函数，只 

^ X + 

须证明它非负.但 I 巧 I 在 x 2 + /< l 内的最大值小于1，而/( X ， 
v ) 在： T 2 + /< 1内的最小值为 e " l /2 /27 T > 1/100.故知 g 非负. 


后一结论易证，因为对任何 <2 >0有 

SgjtC 

第二早 


a 

xdx — 0, 

一 a 


1* 不直接利用对数正态分布密度算较方便.按定义，若 X 为 
对数正态分布，则 X = e Y ， Y 〜 iV U ， a 2 ). 于是可利用公式 
(1.18) .这涉及计算形如 
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e 〜- u -“) w d：r 

J -- oc 

的积分.把 — ( j : — a ) 2 /2 a 2 写为一 （x — c ) 2 /2 a 2 + <:/ 的形式，其 
中 c - a + ba 1 ,即不难算出上述积分. 

2. 易见它只与区间之长6 - a 有关（何故）.记 d 二 （ b - a )/2, 
可就 R (- 0，0 ) 的情况算，结果为9/5 ~ 3 = —6/5. 

3 .设 X 服从超几何分布（第二章例1.4)，可把 X 表为 + 
… + ，这是设想^个产品一件一件抽出， X 二0或1视第 z 个 
产品为合格品或否而定，先证明 

P ( X I = 1) = M/N , P ( X f -0)- l - M/N 
P ( X ； = 1, X , = 1 ) - M (M - 1 ) / N (N - 1 ) 

P ( X 1 - l , X f -0)- P ( X / 1) 

二 M(N - M )/ N(N - i ) 

P ( X l ^0, X J ^0 )^(N - M)(N - M -\)/ N(N -\) 

当由此就不难算出 E ( X )^ nM / N 及 E ( X 2 ) 把入 2 二. 


+ … + X„) 2 展开)，从而算出 Var(X) 二务三 ^(1 -勞) 

4. 在不放回时，《种情况（用1把，2把，…，^把）都是等可 
能，即 P ( X = 0 = 1 = 1，…， n . 故 


朗：淨 




2 


如有放回，则X二概率为 f 是 1/n 的几何分布变量再加上1.按 


例 1 .2 ，得 E(.r) = 1 + ^―：-^ - \ + n ~\ ~ n . 

P 

5. 作法与第3题相似（实际上，第3题为本题当 a, 二0或I时 
的特例）.但此处&的分布为 

P ( X , = a /) = \/ N 9 j - 1，…， N ". =】，•.，?？ 

当时，（&，乂）联合分布为 

P ( X/ = a u ^Xj — a v ) — 1 /N (N — \、、u 尹 v 、 (2) 

由此易算出以又）=^为算\^(叉），要算以义+…+ 乂^^有 
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E(X]) 



d / TV •而由 （2) 有 


E( X ： X } 


N(N - 1 ) 


l ) u^v 


N 


N(N - 1 ) 


"v ^ v ^ 2 

/ A A _J ^ k 


u , v — 


k — 1 


N(iV - 1 


na 


) 2 - S 


“I 


k 


再经过简单的整理，可得 

Var(X) = 


N 


n 


N - 1 nN ^ 




a ； - a 


) 


6. 分析； C 的构成，它等于… + I ，其中 I 是已登记了 
1个不同数字的情况下，再抽到一个未登记的数字所需要抽的 


次数，显然， A 二1，对/ > 1, X , - 一 个概率 p 为1 的几 

n 

何分布变量加上 1. 由此用例 1.2 算出 EiX ,) - n/(?j - i + 1)( 此 

r 

式对 / 二 1 也对），故 E(X) - + 1). 

/ 1 

7.( a ) 用全概率公式算九 （ r + l , H ): 先把 r 个球随机放人^ 
盒.如恰有々个空盒（概率为九“，〃）），则剩下一球必须落在已 
有球的盒子（共々个）中，其概率为 U - 6)/»;或者恰有々+ 1 
个空盒（概率为九 + l ( r ，《))， 则剩下一球必须落在无球的盒子 
里，其概率为 U +1)/«.由此得题中之 （1) 式. 

( b ) 把题中的 （1) 式两边乘以々，再对 A =0，1 ，…，? i - 1，相加， 
在化简右边时注意. 

ti - I 

kp k+[ (r , n)(k +1) 

k ^ i ) 


n — t 

=Yjik ^ \ ) 2 p k ., x (r ,n) 

n - 1 

-y] (^ + l) p k + l (r ,n) 

>t = 0 
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y^j p k { r 7 n ) - y ] kpy ( r ,? i ) 


?t-i 


n 


hj Pk ( r ， ？?）— V] kp k ( r ,n ) 


o 


o 


这样即得岀右边之和为 1 1 - ~ jm r , m 0 ~ ?2 显然，因为，不投球时 
空盒数为 7Z . 


oo 


• 要定出 C ， 使 C (1 + x 2 )- ?1 dx = 1 .令 ;V = 2 " — 1 ， 


式化为 C 


C 




vW 


( 1 -H jr 

-C,V+l)/2 


x = 1 .令 x 二■上式化为 


oo 


较，即得 


c; 


^/N 


y ： 

N 

r 


— 1 •与自 由度为 A / 的 ^ 分布密度比 


N± 

1 


r 


N\ 
2 j 


c = r(?i 


r 


j 

)v^/Vtt 
2n — 1 


n 


此密度关于 0 对称，故其均值为 0 ， 方差为 C 


广 co 


1 


JC 


( 


X 




/(i + i 2 )— •这个积分经变数代换〖二 1/(1 + 2 )( 


JT 


= /( 1 - t ) h ) 可化为#积分. 

9 - 由第二章 22 题可知 A 的密度函数为 20 ( x > U )， 这里 
中， P 分别是 iV ( 0 ， l ) 的分布和密度函数，故 




L( Y ! ) = 2 x<P(x)<p(x)dx 

J — oo 


2 


'<p( 


XQ[J ： 


.1' 


<p(y^y 


dx 


2 




\y<jr 


J^<p(j ： )<p(y)d^dy 


K 


xe 


-(』’ + jvO/2 




r V< r 


djcdy 


积分区域在图 4 中直线 / 的下方，化成极坐标后，有 
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10. 卡方分布的方差为其均值的 2 倍， 

故若 A 和 x 2 分别服从卡方分布和 ％ 4 

x 2 „， 则因 u 2 独立，将有 

E(Xi + bX 2 ) = m + 67?,Var(X 1 + bX 2 ) = 2m + 2b 2 n 

要后一值为前者的 2 倍，只有在6=0或1时才行. 

11. 化为极坐标，则 Z 与 r 无关而只是 (9 的函数，再利用第二 
章例 3.6 中得出的 d 〜 R ( Q ，2 k ). 


12. 先设 F 有密度/，则 FU 
值， /(>) = 0, 当） ’ < 0) •故 


JC 


0 


/(>0dy (因X只取非负 


[1 - F ( x)]dx 




oo 


oo 


f(y)dy - f(y)dy 


X 


dx 


o 」 


f(y)dydx 


X 


0 




dx 


o 


f(y)dy 


=yf(y)dy = E(X) 

Jo 

若 P(X 二々） = p k ，k = 0 ， 1 ， 2,… ，则当 f < x < f + 1 时，有 

i 

F ( x ) - P(X ^ x ) = P(X = 0，1，…， 0 = 2 九 .故 1 - F ( x ) 

八 


= 2] / V 因此 

尸 / + 1 

"oo °° 

[1 - F(x)]dx = 2 

J 0 i^0 v 1 i = 0 尸 /HI 

二（/ + •••) + ( p 2 十/^3十 ._•) 十 ( p 3 十 ■••) + ••. 



二 户1 + 2 . + 3 •户3 + ••• 二 E ( X ) 
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13. 证明要用到重要的施瓦茨不等式 

E ( X 2 ) E ( Y 2 ) > (E(XY)) 2 (3) 

此实际上在定理 3.1 的2°中已证 明了： 只须把 （3.3) 式中的 
改为0,则 (3.4) 式即成为此处的 （3) 式.等号成立的条件为 X ， 

Y 有线性关系，即存在常数 r ， 使 Y = 或 X 二 cT . 

现把 （3) 式用于 X = Y - ，即得 E (圭)> 

.等号当且仅当有常数^，使# 2 =以/^ 2 ，即 X 2 二常数 

c . 现因 Xi ， X 2 独立知 X x A/X 2 独立，故 

E(Xi/X 2 ) 二 E{X x )FA\/X 2 ) > E(X x )/E(X 2 ) - 1 

(因为 £(&) = £(&)) 等号只在 X H X 2 皆只取一个常数 c 为值 
时成立. 

14. 令 y ,. = &/(& + … + x „)" = 1，…，”.则因 A ， …， 
独立同分布，易知 y 1, * * * , y /; 同分布（不独立）.故 e ( y ! ) == 
£( y 2 )=-.. = e ( yj . 但 ^ + …十 k 二1,故 E ( y ,) = 1/；；. 

15. 把次数 x 记为& +…十 u ,. 二1或0,视第 /• 次试验 
中 A 发生与否而定.则对两串试验而言 ， Xi ，…，久„都独立，而分 
布为 

第一串：尸（\ = 1)=/)，尸（又= 0) = 1-/) 

第 二串 ： P (入 = 1) =九 ， PUf 0) 二 1 — 九 
对第一串有 E(X) = 川十 … 十 A 二吵，对第二串也有 E(x ) - 
_，二者同，对方差而言，则 
第 一 串：为 a ] = ? ip(l - p ) 

第二串 ：为 A (1 — A ) 

/ 二 1 

有 


n n 

- ^2 = Yj p] - np 1 = ^2(pi ~ p) 2 ^0 
等号当且仅当 h 二…二九二 p 时成立 . 
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直观上看这结果的解释如下 ：如果 + "*+ A ； = np 而九，… 
p n 不相同而较分散，则其中会有一些比更接近0或 1. 而这导 

致方差 的降低，因为， A ( l - A ) 当 A &0 或1时很小 • 

16. 因 0< X <1， 故 0<£( X )<1， 以及入 2 < X . 故 
Var ( X ) - FAX 1 ) - E 2 ( X ) < E ( X ) - E 2 ( X ) 二 EX (I - EX ) 
但函数 i(l —. r ) 在内不超过1/4,而 0< EX <1， 故证明 
了 Var ( X )< l /4. 

从上面推理可知，为要成立等号，有两个条件要满足 ： X 2 = 
X ， EX = l /2 .前一条件决定了 X 只能取 0，1 为值.后一条件决定 
了 P ( X 二0)=尸（乂二 1) 二1/2.这是唯一达到等号的情况. 

对一般情况 a ( X<b ，可令7 = ( X - a )/( 6 - a ). 则0< Y 
<1 因而 Var ( Y )< l /4 .但 Var ( X ) = (b — a ) 2 Var ( Y ) ， 故有 
Var ( X )<(6- a ) 2 /4 .等号只在下述情况 成立： P(X = a ) = PU 
~ b ) ~\ / 2 . 

17 . 分別以 X , y 记二人到达的时间，则等的时间为 
IX - Y 1. 而平均等待时间为 


x - v | /3600dxd3 ? — 20( 分钟 ) 


(to 


oo 


r 


18. 在计算^|。 I — m |/(x)dx 时分为 J ( "i - x)f{x)dx 

) 

(x - mm x)dx . 


m 


i9. 任取 〃 #. 例如 a < w ，贝 y 


E X - a - E X 


m 


[\ j ： - a \ - \ x - m \ ] f(x)dx 


7)7 


X 


a 


— \ x ~ m I ]/(x)dr 



x ~ m ]/(x )dx 


在 - oo 〈 z m 内有 Lr - a 丨 - Lr — 川丨 > - 7/2 - a •故 
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, m 1 

第一积分 (m 一 a ) /( x)dx ^ — a){m 的定 


义！）而在内有 I 工 


a 


x 


2 

—m \ =( m ~ a) jtk 


第二积分 — (m — a) /(jc)dr 


m — a 


rn 


y=A ] X 1 y 



二者相加，得 E I X - a I 
-E \ X ~ /n I >0 .对 a > m 的情 
况也类似处理(请读者完成）. 

21. 计算 Y 二 X ! X 2 的分布 
函数 F ( y ) = p ( y < y ). mn \ V 
< y \ 相应于 （ XbX 2 ) 落在图 5 中 
的区域 A 或 B 内.因此有 


图5 




F ( y ) = f ( j ： i ) g ( j ： 2 ) dxidx2 + f ( j ：\) g ( x 2 ) dj ：\ dx2 


A 


B 


固定 Xl 先对 X 2 积分，得 


F (: y ) = /( xi ) 


oo 


¥ y/x. 


g ( j ： 2 ) dx 2 


dx 


o 


/(^i) 


y〆 工、 


g ( x 2 ) dj：2 


dx 


两边对 y 求导，得 Y 的密度函数 A ( 3O 为 


h ( y ) 


计算 E ( Y ) 




ro 


y 


X i \X \ 


dx\ 


广 00 


A ( jOdjy •注意当： > 0 时有 

oo 


yg 


JCi 



X\ 


^(^)dv = x\E{X 2 ) 


而当 xi < 0 时有 


roo 


}dy 


/v 


— 工？ yg(y)dy = - x^E(X 2 ) 


因此 
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E(Y) 




y h (y)dy = E(X 2 


x 


Wo 


f { jc \ ) d:c 




xif(xi)dx] ) = £(X 2 )£(Xi ) 


第四章 

2. ( a ) 只须注意：若 c !< c 2 , 则 ) 二 i q 1 

且仅当 c i ^ a ^ C '2 时达到最小值 q - c !. 故如把 a 1 ， 


I c 2 - a I 当 
， a n 按由小 


n 


到大排列为 a ( i )^ a ( 2 )**-^ a ( ?1 ) ，则将 /7 (a ) 写为 2 


<Hi) — a 


a ⑴ ~ a I + I a u ) ~ a I ) + ( I a ⑵ _ a I + | a (” — d - a | ) + …后， 
可以看出•.为使此式达到最小， a 必须落在下述这些区间的每一个 
之内： [ a ( i ) ， a ( N ) ] ， [ a ( 2 )， a („ — i ) _， [ 61 ( 3 )— 2 ) ]，•" .女卩”为奇 
数，适合这条件的唯一的 a 是 a u + 1 ^ .如 w 为偶数，则 
AM + U ] 中任一数^都适合这条件.不论在何情况，样本中位数 
总在其列. 

( b ) 极大似然估计直接由 （ a ) 得出，为样本中位数，矩估计为 
X . 

3. 总体均值为33/2,故矩估计为2叉/3.样本，…， 
的似然函数为 

O ' 71 ，当 0 < min ( X ,) < max ( X ,)<20 


fih ，…， X n ， 0) = < 


0，其他情况 


可看出极大似然估计为 ymax ( X t ，…， ). 
4. 因为积分 




00 


Itccj 


{x ~ a ) 2 exp 


0 


2 a 2 


x ~ a 




是 NUw 2 ) 的方差，为 a 2 , 故立即看出 /( x ; a ， d 为概率密度函 
数.由对称性知此分布均值为 a ，故 a 的矩估计为 X . 此分布的方 


差为 3 a 2 , 故得 a 2 的矩估计 为 3 (丄 ^ >] ( X , - X ) 2 . 
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取似然函数的对数，分别对①和7求偏导数，得到决定极大似 


然估计的方程组 

n 

2D 

/ - 1 


~ Cl 


n 


9 

cr 




(J 2 •口 - a) 2 (2) 

* y \ \ 

i - l 

一个叠代解 法是： 先给定 a 的初始值 a G (例如，但必须叉 
¥ X t 对任何0,由 （1) 式解岀 a 2 之值以 a 2 ^ 4 代入 （2) 式解 
出 a 的下一个值 a 1 ( 这是一个 a 的二次方程），以 a — a x 代入 （1) 

解出 tr 2 的下一个值 erf. 继续下去直到 （a „，) 与 （ a„ + i ，(^ + i ) 之 
差别小于指定界限为止. 

5. 先算出 

- e— A A x /X!dA = l/2 x+! ,X - 0 ， 1 ， 2,…. 

^ 0 

即知 A 的后验密度为 2 x+1 e — 2 WX!. 其均值，即（久 + 1)/2, 为 A 
的贝叶斯估计. 

A 的 MVU 估计为 X. 当X取大值（具体说， X>2) 时，它大于 
贝叶斯估计（X + 1)/2. 请解释一下其原因. 

6. 先算出样本（X ,，…，的边缘密度 

' oo _ 

Ae—YeiUdA = ( ^ + 1 ) ! /( 1 + nX ) 71 ^ 1 
Jo 

由此算出 A 的后验密度的均值为 

_ roo 一 

1(1 + nX) n+2 /(n + 1)! ! e— A A n+2 e—^clA 

J o 

-(n + 2)/(1 + nX ) 

这就是 A 的贝叶斯估计.你对这个估计与通常估计 X 比较，有何 
评述？ 

7. (a ) 考虑 」 V+1 个球，自左至右排成一列，如图6.现要从其 
中拿出77+1个，拿法有(~+1种.将拿法作如下的 分解： 固定列 
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a 


A 十 1 


m 6 


中的第 m 


个球 cz . 将 a 拿出，并在 a 左边拿出： r 个 


f 拿法有 j 种 j ， 在 a 右边拿出 n - 工 个(拿法有^_:|种). 

( ?71 \ I hJ ~ 7H \ 

1 种.再让 a 由位置1流动到 N + 

x ! \ n — x ! 

1( m 由0到 N ). 所得出的拿法显然无相重的并无遗漏的.由此得 
出所给的组合等式. 

( b ) 在所给先验分布之下， X 的边缘分布为 


P(X 


* \ 

二 k ) P k (X 


k^O 


(N + l) 


* i * 

s 

方二 o 


M - k 


n ~ x 


(N + 1 ) 


L 


n + 


2 = 0, 1 ， •■ 


如此得到 M 的后验分布为 


P(M 


I X ) 


n + 1 / ^ \ / ^ - 


0 ， 1 ，…， iV 


此分布之均值，即 

d(x) 


2 


⑶ 


为 M 的贝叶斯估计.上式中的和等于 

su + ”rin - 


S 


⑷ 
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第一项可化为 （ X 十 1) 


m + 1、 

-X + 1 i 


N+l — ( y > i + l )\ 
w + l-(x + l) / 


■因此 ，由 （ a ) 中 


证明的组合公式， （4) 中的两个和，分别等于 


/V + 2) 
??+ 2 / 


(JC + 1〉和 


：V + 1 ). 以此代人 （3) 式并化简，即得所要的结果. 


8. 考虑先验密度(可以是广义的）.得到贝叶斯估 
计为 （x + a + 1 ) /( w + a + 6+ 2)，取 a ~ c ~\, b ~ d ^ c ~ \ 即可 • 


9.( a ) X(X - 1 )/UU - l )].( b ) 若多（ X )为 〆 >)的无偏估 
计，则 

g(p) = E p p{x) = 2 P(^)[ n )p l (1 - pY ' 1 

0 \ I i 

而右边为 /> 的不超过 r 阶的多项式.由此可知，像 e i ， l/(l + /> 2 ) 
等，都没有无偏估计.还有一个有趣的事 实：令 g\(p) ^ p, 
发2(户） = /^，尽3(/>) = />” + 1 ，则 ( P )，#2( P ) 都有无偏估计（见 
( C )), 但幻 （ f )* g2 (；>) = g 2 (/>) 则没有 .（ C ) 只须证明 ：对任 何自然 

数 kKn,p k 有无偏估计.直接 验证: 〆 的无偏估计就是 X ( X -1) 
•••{X _ k + 1)/[ W (?7 - 1) •“（??—々 + 1)]: 

E\^X(X ― I ) * • * ( X — k + \ ) /n{n — — k + 1)] 

T! 

=^ [ z ( z — !)**•(/ — k + \ ) /n(?i — - 々 + 1)] 

/' ~0 

.( n . y (i - py -' 


n 


^0 


(n - k ) ! 


(? - k)\(n - i)\ 


P l (l - P) n 


- P k t [ n ^ l ) p - k ( i - p )- 

^0 \ l ~ k j 

令 ” — a = w "- 左 u 式成为 y vO(! _ P Y” 二 p h . 

_；-o \ j I 

10 . 依第二章 23 题， ，…， X n ) 与 d — max ( 久〗，…， A ") 
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同分布.因此二者之均值相同，由此得 

E [ min ( Xi ，…， ) + max ( Xj , *** = d 

这证明了 U ) •又由第二章 22 题知 minCA ，…，的概率密度为 
|l - y j (当0< x < 0，此外为0)，其均值为 0/( 77 + 1) .由 

此可知，令 C „ = « +1，则 C „ mind ， …，; O 为5的无偏估计.这 
证明了 （ b ). 为证 （ c ) ，只须算出 Var ( C „ min ( ，-- 9 X n )) - (n + 

1 ) 2 I 。工 2 G f ) <^Jc ~ d 1 ~ nd 1 /( n + 2). 与例 3.5 比较即 

得（问：由，…， X „) 的方差表达式看出这个估计之不合 
理处，在什么地方？—— n 愈大，其方差非但不下降，反而上升，即 
样本愈多，估计误差愈大了）. 

11.( a ) 有 

£^[0(^:)] = S 6( i ) ^- pA 1 = e~ 2A 

/-o 1 • 

得 

S Hi)fj = ^ 2(—1” 爿，因此§(2.) = (- l ) 1 

/ = o z ! I= o 1 * T 

这估计之不合理显然，一个合理的估计可取为 


12.利用 E ( x 2 n ) = n , Var ( x 2 n ) 二 2 n . 由于（” -1 ) Q x /a 


； di ， 知 


E[d{ - a 2 ] 2 


-VE[U - 1) 6,/a 2 - (n - l)] 2 
(n — iy 2 o 4 V^r( X 2 n ^) - 2a 4 /(” - 1) 


另一方面，有 

Ei^d 


2 


n 


2 


cf 

2 


El^4d)-aA\v,r 


n — \ 


n 


n 


d 


n 


a 


4 t n 


? 


2 \ 2 


n + 


a 


4 


71 + 1 

n ~ \ 

7Z + 1 


Var (^) 


? 


2 


1 


<y 


4 


2 


n 


a 


4 
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由此得出要证的结果. 

13. 与 12题一样，用 Var(;^) = 2 '有 

Var ( d 3 ) - ^Var(^^) = < VarC^) 

这证明了 （a). 为证 (b)， 要用克拉美-劳不等式，以^作0，以60 二 
义算出 

l{a 2 ) = - A(X - a) 2 ] 、 1/(2 汀 4 ) 

I2a^ 2a 」 

于是 y 的无偏估计之方差下界为 

1 /( ??/ (<7 2 ) ) = 2 a 4 /n 

与 V ar (^ 3 ) 相同.由此证明了所要的结果. 

注： 若令^ = - a) 2 . 由12题的证法，心的均方 

11 十 Z / = I 

误差为 2 c 4 /( n 十2)， 比込 的均方误差（即 Var (㊀ 3 ))小.由此例可 
知， MVU 估计的均方误差不一定是最小的. 

14. (a) 因为作变换 x = 可得 

°V e - fe2 dr = d ~ 3/2 r y W 2 e - y /2 dy 

Jo Jo 

二 士 r 3/2 r(3/2) 二 j i~xe- ia 

即知 _ .故令 c=2 即可.其次，算岀 

Varf — X) ~ ~Var(Xj) = 2/( nd 2 ) 

再用克拉美-劳不等式，先算出 

1( d ) = E [— - X 2 ]、 1/(2 沪) 

而旦(0) = 1/0，故 g ，（ d ) 二 -1/0 2 而 

( g ' ( d )) 2 / nl ( d ) = 1 ^ n ^ 2 ^j = 2/(? i 6 2 ) 二 Var (音 子) 

于是证明了所要的结果. ( 
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15. (&)用第三章定理3.1，2°，有 
v ar (^^)= E[y(^i - <9) + \{d 2 - B)] 2 

= ^[ e (0! - d ) 2 + e (6 2 - 6) 2 ] 十 \ e [(6 i - e)Ce 2 - e)} 

- e) 2 + E(d 2 - 沒 ) 2 ] 十 \[E(dx - e) 2 

• E(h - d) 2 ]2 

由于&，纟 2 都是 0 的 mvu 估计，其方差相同且都达到最小值 
c( 0) .由上式得 

Var ( 沒 1 ; )<★[<： ⑷ + c (6)] + yc((9) = c ( d ) 

即无偏估计 + 1)/2 的方差不大于最小值 c(60, 因而它必为 
MVU 估计. 

(b ) 用反证法，若+ 6不为 W + 6 的 MVU 估计，则可以找 
到 ad + b 的一个无偏估计》 i ，使 

Var^ (6 i ) < Var 沒 (a 6 + 6 ) = a 2 Var^ (8) 

0 0 0 

至少对一个 5 值办.令 L = { d x - b)/a ，则 &为 没的无偏估计，且 

Var^(0 2 ) = $Var 〜(、）< $a 2 Var 〜⑻= Var ^(0) 

即无偏估计I的方差，当0 =知时比无偏 估计》 的方差还小.这与 
3的是0的 MVU 估计矛盾. 

16. £(Sc z X z )= ^ Cl E ( X t ) = d 交 Cl : 0，故 tqX, 为无 

/二 1 z = 1 /二1 / — 1 

偏估计，其方差为 （a 2 = Var(X ; )) 

Var( 2 CiXi )=2 c]Var(X, ) = cr 2 2 d 

j ■二 i y - 1 j ^ i 
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= a 1 2 (c ； — l/?i) 2 + 1 /n ^ a 2 /n 

i - \ 

等号当且仅当 — 时才成立. 

17. 因为 11^ x (；^ ，…， X „)( 记为 5) 的密度函数为 
(当 O < x <0， 此外为 0) •故 


PeCd^dKcJ) = P e {d/c n Kd ^6) 

re , ， 

- ?ix n ^dx/d n - (e n - (d/c n Y)/d n = l - c ； 

^ Q/cn 


要此值等于1-«，只须取 q . 

18. ( a ) 只要二1，则 cX + df 为 d 的无偏估计，其方差 
为 C 2 ( J 〖/7? + . 把此式在 C + d — \ 的约束下求最小值 ，结 

果为 

c — { a \/ m ) /{ a\/n + o\/m ) ,d — { a\/n )/( a\/n + a \ /m ) 


对这个有 

(cX + dY - 6 )/A - N (0，1) 

其中 A 2 = ( a \ /n * a\/m )/( a 2 { /?i + < y \/ m ). 于是得到 0 的置信系 
数1 的区间估计为 cX ^ dY + Au a /2 . 

19. 考虑 

2 X x nX /2 X 2 mY = Z 


分子分母独立，分别服从卡方分布和;故 



n 



祕 


< 



此式可改写为 


— a 


/ F 2n , 2m (l \ -a 

即得 A 2 / Ai 的置信区间. 

* 的联合分布密度为 

f ( d ， x u x 2 ) = e _ V—W—'O < 6> <min(X 1 ,X 2 ) 
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,A%) 

由此得出 （ Xi ， X 2 ) 的边缘密度为 ‘ = 

^ 0 

e - CV - VCe -^ W - 1]，而沒的后验密度为 

h{d\X x ,X 2 ) = e 9/[ e —U, ， x 2) -1] ， 0< d^mm(X u X 2 ) 

此外为 0 .这密度在上述区间内随 0 上升而上升.故要找一个最短 


的区间 [ a ，办]使 J h(d \ X ] , Xjdff = 
X ，）.因 


I ~ a jb 必须取为 min ( ， 



— e e A 6 ~ 


e min (. V 1 ” V ，) 


- e 


a 


知 a 必须取为 logla ^^ r ^- bl - a ]. 

21. 由 （77 - 1) S 2 /£ T 2 〜，从卡方分布密度的形式,不难算 
出 S / CT 的密度函数 g (5) 为： g ( S )=0 当而 


gU ) 


2 




( n - D / s 1 



S n — 2 ， s>0 


为计算 E ( S ) = aj o 取 G ) d 5, 只须在积分 

J o °V->(-^^)d, 

中作变数代换 ^ = U - i ) P /2 以化为 r 积分即可. 

22. 作代换 K = (XrdiMdrdli 二 1，… n . 则匕，…， 
y n 独立同分布，其公共分布为 [ o ， i ] 上的均勻分布 r ( o ， i )， 与 

d u d 2 无关.故 E(S Y ) 二 E Tj(Y { - y) 2 /(n - 1) 也与仏 

无关 • 记为心.有 S 二 ^ 2( 足 - X) 2 /(n - 1) - (0 2 ~dj)S Y9 
ijc E(S) = d n (d 2 - 6 { ). 现有 


E(x - c n S) = (^! + 62)/7 - c rj d n (d 2 ~ d {) 

£( x + c.„s) = (di + q 2 )/i + - d { ) 
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取 = 1/(2 尤）.此两式分别成为 & 和.要求出 C „ ，必须算出 
尤二 £( S y )_ 这不容易. 

23. 设此结论不对，则存在6的无偏估计： T ,,， 使对于（彡， 

的某个值 (％， d )， 有 

Var 〜， <( T „) < Var 6{)> ^( X ) = al/n 

把：^，…，看作为抽自正态总体 N (0, ag ) 的样本，0未知而^ 
已知.这时， X 和八仍然是0的无偏估计.且因此处方差^已 
知 . X 是<9的 VLVU 估计.因此对一切0应有 

Var ^( T „) > Var 以(幻= a\/n 

令0 =知，即得到与前式矛盾的结果，这证明了 X 仍是0的 MVU 
估计. 

第五章 

1.1 。 /?(0) = 1 -[中 (Pp) — 为标准正态 

iV (0， l ) 的分布函数. 

2。 这归结为方程组 

0 ( C2 g ~ - a ) - ^ ( ) = l-a (1) 

这方程组可以用如下的叠代方式，借助于正态分布表求解 ：指定 
c { 的一个初始值 C ?. 由（1)，（2)分别决定出 Q 的各一个值，若二 
者差距不在容许范围内，其算术平均取为以 C 〗 代入（1)，（2)， 
分别解出两个 q 值.若二者差距不在容许范围内，其算术平均取 
为 C ! 的下一个值 Cl •然后以 Cl 代人（1)， （2) 中之 q ，定出 C , 

之下一个值 c ' 2 .这样继续到某次定出的两个值差距在容许范围内 
为止. 

3°记少( X )= 〆 jc ) = ― ==~ e ~ / 2 ，易见卢 ((9) 的导数为 

w 2 k 
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由的形式易看出时 

/ T (60<0, 当 时 ^( 6 )> 

0,故;? （0) 当0由- 00 变到 00 时，先下 
降到 （Q + C 2 )/ 2点处达到最小值，然 
后上升（见图 7) .由于戶(幻=外6)，看 

出“<(^：1+<：2)/2<办，而在[<2,6]区 图7 

间内#幼）之值不大于1 

注 ：显然 ，外们的图形关于点2对称，由此可知， a ， 
b 与 （q + c ?)/ 2有等距离，这说明必有 C { + c 2 — a + b . 这个事实 
提供了解方程组（1)，（2)的一种 “try and error ” 的方法:取 q 的初 

始值 J<U + 6)/2 •由4 = (^+6)-〔？定出勹的初始值4.以 
这两值代入（1)，（2)，若右边小于说明4选得太大，否则就 
选得太小，经几步纠正达到接近相等为止. 

4°此由 lim 少 （ x ) 二0及 lim O ( x ) = 1立即得出•表亦当0 

^- ► — OO ^—>*00 - 

之真值与原假设距离愈来愈远时，本检验以愈来愈确定的把握否 
定之. 

2. 依直观考虑，检验取为‘ : 当 d < X < c 2 时接受 Ho , 不然就 

否定 H Q ”. 利用 2 nAX 〜; tL ， 一切与第一题相似，在求解 c 1>C2 时 
要用到精细的卡方分布表才行. 



3.令 T = J ( X - Y )/ a . 证明 ：当原 假设成立时有 

\ m 十 71 

丁〜 iV (0， l ) .由此作出检 验：当| T |<〜 /2 时接受 H e ， 不然就否 
定 H 0 . 

算出其功效函数为 


?{a,b) = 1 - 
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其中令上式右端为 1 — 心，解出 d 之值(有两 个：土 A ) 
其正解即所求之 A . 

4. X - C y 仿照两样本/检验的得 

\ mn ) 

出过程，作统计量 



而得出当 Ho 成立时 T 〜 t m … 2. 由此得出 检验： 当 I 了丨< 
~ + „_ 2 U /2) 时接受 H Q ， 不然就否定 

5. 作变换\二^^，〜，/二1,«.考虑两组样本 

X ! ，…，又和 A ，…， (3) 
它们都有正态分布，等方差但\之均值为， ^ m ，！^ 之均值 
为6.故就样本 (3) 而言，原来的假设 %转化为 A .因而转化 
为第4题. 

6. 利甩 AiX / UsF ) 〜 F 2 „, 2m 这个事实. 

7. 记 了 rmaxCA ，…， X „). 从直观上看，0愈大，丁也愈倾向 

r 

于取大值.故一个合理的检验为 •.当 T < C 时接受不然就否定 
Ho . 为定 C ， 计算其功效函数（这用到了的分布，参考第二章22 

题） 

13(8) - P(T >C) = 1- (C/6) n 
它是6?的增函数，故为使卢(60<«当只须使/?(%) = «即 
可.这定出 C - d - a ) 17 ^. , 

注：有 人可能这样想 J 愈大， 二，…， X „) 也倾向于 
取大值.为何不用基于： n 的检验？理由在于：乃中所含0的信 
息不如 T 多，这一点可参考第四章10题.进一步可以证明 ：基于 
丁的上述检验，是 Ho 的一致最优检验.这一点用附录 A 的方法 
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不难证明. 


8.从 /(\ r ，60 的图形（见图 8) 看 
出： 观察值 X 1 ，…，落在0附近的可 
能性大，所以了二 raii ^ XH …，； U 接近 
沒且包含了 6较多的信息.显然，当0大 
时，丁倾向于大.故的一个直观上合 
理的检验 是：当 T < C 时接受不然 
就否定为要根据水平 a 决定 C ， 要 
算出 T 的分布.这可按第二章第22题 
解决，但下述观察简化了问题:令足二 X - 心/二1，…， . 则易见 
X ;有指数密度当 ( x >0. x <0 时为 0) .从此出发用第二章22 



题，易得 T / = min ( X ; ，…， X 〉的密度函数为 we — w (当 x >0. x < 
0时为 0) .由于 T = r + 0，得出 了的密 度函数 gU ，60 为 


g ( x ， d ) 二 
因此上述检验的功效函数为 


77 e 


~ 8 ) 


0, 


X > d 
x ^ d 


^{6) — P d { T > C) = dx = 

J max( c ， 8) 

此为 3 的增函数(何故？)故为使 p ( dXa 当只须使 I 3( d 0 ) 

= a •这定出^二〜+士1呢(士). 

9. 从直观上易理解应取接受域为 X > C，C 为整数 .因为 p 

愈小，为出现 r 次事件 A 所需的总试验次数就倾向于大，上述检 
验的功效函数为 


+ k ~ ] )p r (\ - py 

々二 0 \ r - 1 / 

需要证明它是户的非降函数.这用概率方法证最容易•如第二章 
习题 7(6) 的做法，设想一个试验有三个互斥的结果 
其概率分别为和1 — /> 2 .此处0<^<户 2 <1.令 A = 
A + /\ 2 ，其概率户 2 •以 &记到事件 Ai 出现 r 次时的试验总次 
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数，以 X 2 记到事件 A 出现厂次时的试验总次数，则 ^( p x ) = 
PUr r<C)，j3(p 2 ) 二 P(X 2 - r<C) .由于总有 如 

jA -r<C|CZU2-r<C} 因而 扒外 ）<Mh) ■这证明了 P ( p ) 
的非降性•故为使扒 /0<a 当/只须找 C, 使 

l^(po) = Yj( r + k 1 - Po) k = a 

“0 \ r - 1 / 

若不存在这样的整数 C， 则找 C， 使 

t ( r ^ k ~ l ) poO - Po) k <a 

k=0 \ r j 


g/r + 々 —1\ / h 

〈 X ( />o(l _ 

k ™o \ r / 

把上式左右两边分别记为 A ， B . 则准确达到水平 a 的随机化检验 
为：若 X < C ，否定 H 0; 若 X>C + 2, 接受 H 0 , 若 X=C + 1， 则以 
概率 


a — 


S( r “ - x \ p r ^- p^) k 

\ r ! 



( B - A ) 




r + k - \ 
r 




Po) c+l 


接受 H 0 . 

10. 在得到观察值 X 时，在所述先验分布之下，户有后验密 
度 


M 户 |X)== Jir + tx+\) pT{l ~ pY 

要计算积分 \\ r (\ - p ) x dp / j 3( r ^ l 9 X ^ 1)， 看是否超过 1/2. 

^ 0 

此积分称为“不完全 p 积分”，有表可查. 

11. 因为样本(&，…， x „) 的密度函数为 

f ( X U '-, X n ; d ) = 01,当 maxCXj ，.' X „) ~ T ^ 6 
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= 0,其他情况 

故得在所述先验分布之下， （ Xi ，…，的边缘密度函数为 





e~ n dd = 


j T 



-1) a 


n ~ l ) — “― ("一 


(当其他处为 0). 由此得 6? 的后验密度为 

h ( d \ x u -^ x n ) 


=< 


(n - \) d ^ n /( T ~ in ~ x] - a " U ~° 


0 


然后计算 

r 心 

h(e x.r-.xjdd 


T(d《a 

，其他处 


T 






"v 


A 


0 


do<T 


视其值是否大于 1/2 而决定是否接受 H () . 

12. 按甲的做法，否定域为 X < C , X 为第9次出现 A 时 ， A 
出现的次数，其功效函数 


Pxip) - P p (X^C) - k )p 9 (l~ P) k 

k-() \ k I 

为 p 的非降函数(第 9 题）.为定 C ， 应使 





- A ( l /2) 二 0.05 


当 C = 2 时上式为 0.033 ，C = 3 时为 0.073 .故如严格要求水平为 
5% ，则按第9题，当 C = 3( 即甲的试验结果）时，应以概率 (0.05- 
0.033)/(0.073-0.033)=0.425 否定 H 0 . 所以，按甲的结果，是 
否接受 Wo 还不一 1 定. 

按乙的做法，否定域为 Y > C , Y 为第 3次 A 出现时， A 出 
现的次数.其功效函数为 


Mfi ) = P p ( Y > C ) = 



此为 f 的非降函数(何故？），为定 C ， 应使 
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当 C = 8 时，此式之值为 0.0327 .因此，否定域丨 y>C 丨中的 C 值 
不能大于8.所以，凡是大于8的 y 值，都要否定.现乙的试验 
结果为 y = 9,故必被否定. 

本例有趣之处在 于：表 面上甲、乙二人试验结果完全一样，都 
是在12次试验中， A 出现9次， A 出现3次.但由于出发点不同 
而导致模型有所不同，影响了检验结果.也有人把这类例子看成是 
现行统计方法的缺陷的证明，因为他们 认为： 同样的数据应导致同 
样的结果. 

13•当 n x , n 2 充分大时有 （X - n x p x ) / y/~n x p x { \ - p x ) 〜 
N( 0 A),(Y~ ?i 2 p 2 )/ y / n 2 p 2 (^ - />2) 〜 N(0，1) .故近似地有 

X / n x ~ N ( p x , pi(l - p \)/ n x ) , 

Y/n 2 — N(p 2 , p2(' - P2 ) ， 

因而近似地也有 

Z = X/?i i — Y/ni 〜 N(pi — 夕2, a 2 ) 

其中 (^ 2 = Pi - P \)/ n { + p 2 (l - /? 2 )/n 2 ■如 cr 2 已知，则检验 
川- A=0 相当于检验正态变量 Z 之均值为0,其否定域应取为 
| Z | >抓^.现 a 2 未知，可以用 

云 2 = Pl (' - 彡 1)/”1 + 彡 2(1 - 彡2),〃2 

去估计之，多 f ，多 2 = Y /72 2 •最 后得出 H 0 ： p X = p 2 的大样 

本检验的否定域为 

\^hn - ^in 2 \ > u a/2 {{xl n x ){\ - x/n x ) 

+ ( Y / n 2 )(l - Y / n 2 )] l/2 

14. ( a ) 先设 ^ 为自然数.这时 X 〜 PU ) 可表为 X = 

…，…， 独立且各服从波哇松分布 P ( l ) .因乂 
的方差为1，按中心极限定理有+ + n)/A — iV (0， l ) 

即（X - 7 i )// n ^ N ( 0 , l ). 当 A 不为自然数时，设?2 < A < ；? + 1 . 
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则按上面的表达式，有&十 ••• + \< 久 +… + x „ + 1 ■有 


X! 十 … 十 X„ 


、「x 


n - 1 , X 

-^ 


Va 


¥ 


+ X 


7 } + 


n 


4 x 


⑷ 


但 

Xj + ••• + X „ - r ? - 1 _ Xj + -' + X n - n _ 丄 
^7 a 二 V 了 4 n —41 

因为已证 + … + X „ — n )/ v ^ — N (0, l ),又 v / T 7 X — 1，而 

1//X— 0,知（X〗 + … + X„ - « — 1)//I —N(0，1). 同理证明 

(久 1 + … + X„ 十 t - ?z ) //^ — iV(0，l), 由此及 （4) 式，即证明了 

( X — A )/V A —/V(0, 1 ) 当 A—°°. (b ) 否定域可取为 _ Ao I A/^o 

> U a/2. 

16. 记题中之公共比值为心则易见 
P(X - 0 = + 6 ^ 9 2 + 6 3 ), I = 1,2,3,4 

于是得似然函数 

4 

L(d ) 二 XX[P(X = 0]' = 俨 2 +2 ^+ 3 〜 （1 + 沒 + 沪 + <9 3 )—” 

i 二 1 

由此得到决定0值的方程 d(logL(0))/d0 = O, 即 

(??2 + 2 打 3 + 2>n4),e - n{\ + 20 十 36 2 ) /( 1 + 夕 + 汐 2 + 沒 3 ) = 0 

遍乘0(1 + 0 + 0 2 十沪〉，得到0的一个3次方程，它有公式求解. 
如有多于一个实根，还须逐一代人 L (60 中，看哪一个达到最大， 


这一个就取为0的估计值 〆 因只有一个参数 L 自由度应为4 - 1 
— 1 = 2 . 


17. 按指数分布，落人区间/,内的概率为 

/% • 
m 

Pi(X ) - Ae+dx 二 e" A( "' 1 ^(l - d，i = 1 ，•*•，々 

」 {i — \)a 


九 + iU )= 
暂记 ^ — e ~ ^ 


^ oo 

Ae—hdx 二 e~ Xka 


J ka 

，得到似然函数 


是 +1 

L(8) = TT [A( 久 ） ] 〜二 (1 - 6) n ~ n k^ 俨 2 + 277 3 十 . "+H” 
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使 L (沒）达到最大的沒为 

6 = ( ?? 2 + 2«3 + …+ k?i k +[)/(n l + ln 2 + *** + kn k + kn k ^\) 
相应地得出 A 的估计 


A = ^ _1 log(l/ d ) 

拟合优度统计量的自由度为 （& + 1)-1-1 = ^-1. 

19. 1°只需注意 Z 的表达式 （3.2) 中，当原假设成立时，有 
B { n ， pi )- 槪 EXnpi — V {) 2 就是二项分布 B( n ，九）的方差，艮 P 

npi ( 1 一丸) .故 

k k 

E ( Z ) - ^] E ( np t - Vi) 1 /npi = D ? 吹 （1 - p { ) / np t 

j 二 1 / 二 1 

k k 

二 XI (i — a - ) ^ pi ^ k -\ 

i = 1 ; - 1 ' 

2° 要算 Var(Z)， 须计算 E(Z 2 ) .这涉及到以下两种类型的 
量的计算:- v') 4 ， E (npi - vi ) 2 ( np 2 - V2) 2 .前者较易，它 
归结到 £( V) 的计算，X〜 J ). 这可以利用 

E [ X ( X -1)"*( X - f + 1 )/”U - l).“（n — f + 1)]= 〆而 
得到(第四章习题 9)， 第二种类型的量归结为形如 

Elx^x^ 1)X 2 (X 2 - — 1)X 2 ], 


E(X 1 X 2 ),E(X 1 ) 

等的计算，其中 （XhXhXD 服从多项式分布 M (? i ； p u p 2 , p 3 ) 
(第二章例 2. 2)，这可以仿照第二章例 4.1 那种方式去处理，例如 


ElX . iX , - 1)X 2 (X 2 ~ 1)] 


S 


* 



• iiUi - DilUl - D^V^fO - Pi ~ piY 1 — 1 、、 

S " 表示求和范围为为非负整数 ， q + / 2 <〃. 上式可写为 

(记 I i \ - 2,2 / 2 = i 2 ~ 2) 

__ In - 4) ! 


! i 2 ! ( n 一 4 — 〆 厂 〆 2 


n{n — 1)(7? - 2)(?? - 3) x 
/_ P \ — Pi ) n ~ A ^ 1 ^ 1 - - 
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p \ p 2 y U ' 表不求和范围为：〆 1 ，为非负整数， i 1+ i 2^ « _ 4 .上 
式中之和为 1. 故得 

E [ X l ( X l - 1)X 2 (X 2 - 1)] - n(n - l)(n - 2)U — 1>) p \ p \ 
其他量类似计算，最后经过整理得到 Z 的方差（在原假设成立下) 
表达式为 

k 

Var(Z) — 2 {k — 1 ) — ( k 2 + 2 k — 2 + ^ l / p t )/n 

? = 1 

其极限（当⑺）为 2 U - 1)，即以^的方差. 

20. 方法与附录 A 中讲的完全 一 样，考虑1°取定 p \> fio , 考 
虑简单假设检验 问题： 

Hq:P = Po ； Hi：P = Pi 

证明 ：（2.38) 式定义的检验^是此问题的一致最优检验.证明这 
一点的方法，按附录 A， 只是归结为验 证：对 否定域中的任一点走 
和接受域中的任一点/，必有 

O(i-pi)”-* o' - p 。”- 1 

0(1 - p ，’ 0( 卜 p , 1 

然后注意到检验 P 与 h 无关，且 P 作为 p < p 0 的检验也有水平 
«即可. 


第六章 

1. 记 S 2 = S ( X Z - X ) 2 , S ! - I ]( X , - X ) Y , 

z 二 1 i 二 1 


H(Yr - a 0 - - X )) 2 

i - 1 

n 

— S 2 a\ - 2S 1 aj + nao — 2n Yoro + 2 Y? 

卜 1 

- ( Sa t - S { / S ) 2 + 72 ( a 0 - Y ) 2 
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+ SHiF 2 — 辦 / s 2 

/ 二 i 

由此立即看出此平方和之最小值在 a {) - f 和 a 二 S ,/ S 2 = 

尹 处达到，且最小值为 

tM 二 ty )- nY - S \/ S ^ 

/■二 1 /二 1 

= 2 (y, - y ) 2 - sf/s 2 

/二 1 

= Ed y ) 2 - hs } 

/ = 1 

即 (2.23) 式，这个证明不仅简单，还有一个好处，即它确实肯定了 
达到最小值.用偏导数方法，理论上还有一个验证方程组 （2. 10)， 
(2. 11〉的解确实是最小值点的问题. 

2.( & )利用心，^的无偏性，因为 

K = /? 0 + — X ) + e 厂 （纪 + MX t - X )) 

= (A)— 為 o ) + ( 卢 1 ~ ^ 1 ) ( X z - - X ) + €i 

且 £( q ) 二0,即得 £： U )=0. 

( b ) 这是因为，在 （2.10) 式中把 a 0 , ai 分别换成其解^)，^， 
得到心+…+九=()，&十…+九之间既然有这样一个函数关系， 
它不可能是相互独立的. 

( c ) 在证明 （2.21) 式的过程中已得出 

71 n 

Si = e t - e - tfj/S 2 (tj ^ Xj - X , e = 

7=1 /=1 

( 1 ) 

又由 （ a ) 有 E (&)=0 (EU ) 二 0 也直接由上式得出），故 

Var (^) =£(8]) = E ( e , — 孑 ） 2 + t ~ S~ 4 E ( V ] ) 2 ' 

；-1 
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- 拜』)-20- 2 £(它—】) ⑵ 

i -1 尸 1 

注意到 E ( e t ~ e ) 2 ^ E ( ej ) + E ( ^ 2 ) - 2 E (^ ? ) = a 2 + a 2 /?? - 
" La 1 Jn — a 1 ~ a 1 hi = (1 - 1 A ? V 2 , 以及 

E ( XI ifj ) 2 = = J 2 S 2 ， E ( 2 ’ 用 ) =W 2 ， 

j ^1 y-1 尸 1 

n n 

^ S tf^/n ^ 0 

尸 1 尸 i 

代人 (2) 式即得所要证的结果. 

注 ：由这 个结果，得 

E ( SW ) 二 (的)二 X ) 2 / S 2 ] a 2 

/二1 f - 1 ; = 1 L H 」 

— (n - 2)a 2 

因而得到 J^/(n - 2) 为 a 2 的无偏估计的另一证明. 

/ = 1 

( d ) 与（〗）式类似写出$的表达式，注意 Cov (^-,^) = E 
U &)， 把两式相乘逐项求均值，与“）完全类似地得到所要的结 
果. 

3. 考虑线性回归模型 

Y 二 a 0 + aix+e，ao = a，ai = ^-a (3) 

其中 e 〜 iV (0, a 2 ). 在 X = 0点重复观察《次，其 Y 值记为&， 
…，;在 X = 1点重复观察 m 次，其 Y 值记为 Yi ，…， .这样 
按模型（3)，&，…，〜 NU ， a 2 )， Y 1 ，…， Y w — TVb / 2 )， 如题 
中所设者.然自模型 (3) 观之，估计 6 - a 相当于估计回归系数， 

检验 亦然. 而此处的平方和(2_9)为 t (足- a 0 ) 2 + £ 00 - a 0 

y = 1 7 = 1 

- ai ) 2 , 直接得出 a 0 , a ! 的最小二乘估计为 X 和 f - X . 后者即 

n m 

b - a 的估计•残差平方和为互] (足 - X ) 2 + f ). 自由 

i - I J = 1 

度爪 + 72- 2•又此处之 S 2 ( S 2 即 （2.16) 式中的 Si ) 为（注意自变 
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量值中 n 个0和 w 个1，其平均为 m/(n + m )) 

s 2 = n(0- m/(n + m)) 2 + w(l — m/(n + m)) 2 

— nm /{ 7 / + m ) 

由此，按 (2.26) 式求 a x ^ b - a 的区间估计，所得结果与两样本 ^ 
区间估计一致. 

n 

4将平方和公 （I - %) 2 按第1题的方式处理： 2 d - 

，二 1 1=1 

71 71 

bXi) 2 - S 2 Q b 2 - 2S 0X b + 2 V? = (Sob _ S m /S 0 ) 2 + L Y? - 

z : 1 ， = 1 

喊 / s 2 0 , 此处 s 〖 = Sg ， s 01 = •由此式立即得出 6 的最 

L — 1 1 = 1 

小二乘估计为 

b = S 01 /Si = S X t Y t / I ： X? 

i = l i - 1 

而残差平方 和为交 Y ? _ 郃 i / S ^， 暂记为尺•由于 

1=1 

E(Y 2 i)= (EY,) 2 + Var( Y : ) 二 b 2 X 2 i + a 1 
E(Sqi) = (£S 01 ) 2 + Var(Soi) 

二 (E^X?)% SXV - b 2 St + a 2 Sl 

z =1 

得到 

E(R) ~ Xi ib 2 X^ + a 2 ) — (b 2 S(i + (t 2 Sq)/S^ 

x - 1 

= no 1 + b z So - b 2 Sl — tr 2 = (n - \ )a 2 

因而证明了尺 / U - i ) 是 J 2 的无偏估计 • 

( c ) 只须作一个正交变换 



其中 A 为正交方阵，第一行是 U^So, …， X„/S 0 ). 则 K = 0 + 
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+ Z 2 „ ，其中 Z 2 ,***, z „ 独立同分布且有公共分布 iv (0， a 2 ). 

5. 若 q =0, 则因6的区间估计问题已解决了， c 2 6 当然直接 
由之得出•若+ C 2 b 表为 ci(a + x 6 )(x = <：2/ ci )， 即 
qmCx ). 因 m ( x ) 的区间估计已在 （2.27) 式的基础上求得，故问 

题得到解决. 

6. (a) 取 1 = 1 来讨论，因为把 X '，…， X „ 作线性变换= 

n 

aX t + b ( a 关 0) 不影响 （A - X ) 2 /^2( X } - X ) 2 之值，不妨设 

尸1 

X = 0 ，Xi = l .这时，为使上述比值最大，应在叉2 +…+ = ~ 1 

的约束下，使…+ x 2 „ 达到最小.但易知后者的最小值在 

X 2 x X ， -一4时达到，最小值为一 \ .故所述比值不能 

n ~ Y 77 — 1 

大于 (1 + n \ | ) = 1 -士，等号当且仅当对某个/，有 X != …二 

^ - 1 ~ ^i + i = …二 X n ¥X i • 

( b ) 分两种 情况： 若 X „ 保持有界，则因 S 2 „ — oo , 就有 U - 

X „) V 纪 — 0.若 | ⑺ ，则注意到 

(a - Xj 2 / S 2 „<(a - X n ) 2 / Z ( X t - X „) 2 , m<n 

/’二 1 

固定⑺，令 ” — OO .因为 t X „ 1—00,上式右端有极限 1/ W . 因 W 
可取得任意大，知 U - x n ) 2 / s 2 n 的极限可任意小，故只能为 0 ( 若 

| x „| 既不有界也不随 rz — m 而趋于无穷，则通过抽取子序列的方 
法去讨论）. 

( c ) 先给 出一个 预备事 实：在 [0，1]上给出三个数 x ， c - x (0 

<。<1)及“，记/=(工-«) 2 +( ( ：-1-«) 2 ，则总可以改变工之 
值以增大 /， 使 X y C - X 都仍在 [0，1 ] 上，且 JC 及 C - X 中至少有一 
个为 0或1.如 X 和 C - X 分处 a 的两边，这一点很清楚.若同在一 
边，例如 0< x<c — ，贝 ！ I dl/djo - Ax ~ 2 c <0( 因 x^c - x , 

2x^：c ) ■故让 j : 下降能增大 J . 让 x 降为 0( 这时 c — x 升为 c ， 仍 
在[0，1] 上） 即可. 
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现证明本题，不失普遍性可设区间 [ A ， B ] 为 [0，1]. 证明分三 

段:1°为使£ (足 - X ) 2 最大，诸中至多只能有一个非 

0非 1. ，因为，若 k 两个，例如 Xi ， X 2 ，非0非 h 则据上述预备知 
识，可以在不改变入 3 , … ，夂和 X 的条件下，使中至少有 
一个为0或1，而（入 1 -叉） 2 +(& - X ) 2 增大，即 S 2 增大 .2° 现 
设&，…，中，有个为 0, rn 个为1，还有一个为 a ， Q < a < 
1.证 明：总 可以把 a 改为0或1以增大 S 2 . 此时 

fy 

(八 + , ( ni + aV t ( /ii 十 a 

S … 0 ( 0 —]-) 十卜-十） 

注意到 720+ npn - l ， 易算出 

d ( S 2 )/da - 2 (n - \ ) n~ x a 十 D 
D 与 a 无关，若上式大于0,则把 a 增至1可增大 S 2 ; 若上式不大 
于0,则把 a 减至0可以增大 S 2 . 总之， a 可改为0或1以增大 
S 2 . 3°以上两步证明了 ：为使 S 2 最大，全部 I 必须只取0，〗这两 
个值，设有 个0，以个 L 则 

s 2 = n 0 (o ' +… (1 - 3) = 

在即十的约束下，要使 S 2 最大，和~之差距应尽量 
小，如应取叫二〜二抓：若打^二爪+:^则770,72!中应有 
一^ 个为 m , 另一^个为 m + 1. 


7.(3)由》 0 =?易得出五（為 0 )二汍，为证 E ( p ) ，暂把 P 
行打 列方阵记为 


jL ^ ^ — “• "• ••• 

、 Ip\ Ip 2 . _ • Ipn ) 

从 X 的每行元素之和为0,可推出此矩阵每行元素之和为 o：/ n 
…+ L =0，/ = 1，…， /) .现有 

m ) = £( S 讲)二 S /# 0 十 i a s /,〜 

i — 1 I - 1 k — 1 I - 1 
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据上述 ，汍之 系数为0,而 A 之系数，正是两矩阵和 t 之 
积的 G _，々） 元，因单位阵丨，知只有当々二 j 时 

此系数为 i ，々 为其他值时为0.故证明了 二\，…， p . 

( b ) 因为彦。=士（ Yi + …+ y „) ,^ =心 l + …+ 由 

(A ，…， Y „) 独立且由等方差，易知 

Cov(^o.ft) = 士 十 …+ b) = 0，）= \ ， … ， p. 

( c ) 与 （ b ) 相似 ，由爲 = h L +…+ l in Y n 及 + … + 

Ijn \ . 得知 

Cov (瓦，禹）=： J 2 ( Ai 6 i + … + l in l Jn ) 

右边括号内之量是矩阵及其转置之积的 Gd ) 元.因 L 为 
对称方阵，故 L — 1 也是对称方阵，即 （ L—y / = L _1 •故 （ L -1 X ) • 

( L - IXX-i = L - IL - 1 二 L - 、因此， Cov (反，氣）二 

C 7 2 .L — 1 的 （2’， j ) 元，当 i 二 J 时，得到反的方差. 

8.有关的理论考虑在题中已说了.现在只须计算—下 

r /^ VT ^7 2 : 记纪 = E *( X , - X ) 2 并注意公 （X - X ) 

/ = 1 2 =i 

•( Y ；~ Y ) ^ 

/ = 1 

n 

厂 ___ d n -2 S ( X Z - X ) Y Z 

r \[~n — 2 _ ^ _ 

^ 72 (1 - £ (足 - X ) Y 1 ) 2 /( SIZ ( Y 1 ~ Y )^) 1/2 

， =1 / 二 1 

rr 

/ t 7 — X ) Y t / S x 

= ___ i 二 1 _____ 

( S (^ - Y ) 2 - (±( X t ~ X ) Y i ) 2 / SlY /2 

^ ~ 1 z ™ 1 
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因为 5= - Yf - {±0(, - X ) Y t ) 2 / Si ) "7 /^2,而 

' i -\ t — 1 

A = 公 （I - X ) Y ,/ S 2 r ,Xft = 0. 故即有 

/ 二 1 

Vl - r 2 

再用 （2.26)， 即证得所要的结果. 

9.(a) 令 Z, = K —足， f =1，…，〜心，…乙独立同分布，公 
共分布为 N(b - a ，2 a 2 ). 而 H 0 :b = a 成为一个检验正态分布 
N(d — 2 a 1 ，/ 9 = 6 — a) 中均值 6 — 0 的问题，可用一样本 Z 

检 验：当 

/ / 1 71 \ 1/2 

/n | Z |/(— Z) 2 J ' > t ?1 ^ i ( a /2) (4) 

时否定 Ho. 

注 ：这个 模型叫做“成对比较模型”，意即足， K 这一对可以 
比较，但当时，足， Y 7 无法比较，因为 Y J - X l 〜 N ( b-a + 

4-<，2a 2 ), 不只与 b _ a 有关而尖-山 又不知道.这与所谓“成 

组比较” 不同： 在成组比较模型中是 A =… = 4=0. 这时任意的 
都可比较，而我们可使用两样本 r 检验去检验，它有 

-2 个自由度.而检验 （4) 只有 n - 1个自由度，所损失的自由 
度，就是因为有了赘余参数 …， d n . 

(b) 可以把 X !，-, X „ 和1^ ，…， Y „ 分別视为一个两水平因 
素在其水平1的 w 个观察值和水平2的 n 个观察值为区组效 
应 d 二1，…， n , 而则分别是这两个水平的效应.为把模型写 
成(5.13)的形式，可令1\ = ^ > ，1% = y, j = 1 ，…， h ;而 
fx = d + (a +6)/2 ( d 二（心 + … 心 ）/ w) 

a\ — a — {a + b) / 2’a: = b — {a + h) / 2 

bj ~ dj — d = 1 ，…， n 

则有’ 
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y tJ 二 p 4 ~ 十 e ijf i = 1 , 2 ;j 二 1 ，•••，《 (5) 

这里巧， i 二 1，2;j = 1 ，…， n 全体独立同分布并有公共分布 N(0, 
a 2 ). 模型 (5) 符合所要求的约束 条件： 

a\ + a 2 ~ a ~ (a + b) / 2 + b - (a + 6)/2 = 0 

n n 

~ - ^) = o 

j — \ ) — i 

原 假设： Ho:a 二 6 相应于检验 (5) 中的因子效应为0,即 ai = a 2 = 
0 . 

(c) 就模型 （5) 按 (5.23) 的分解式来计算 SS A 和 SS e: 
ss e 二 ^ S (^tj ~ ~ y.j + y.. ) 2 

r ™ 1 ] — \ 
n 

-- X - (X, + 7,)/2 + (X + Y)/2) 2 

尸 1 

n 

+ S(^ - y - (x } + yp/2 + (x + y)/ 2 ) 2 

/-i 

二 t][(x j - Y } )/2 - (X ~ Y)/2] 2 

n 

+ E [( d )/2-(?- X )/2] 2 

；-l 

~ (Zj ~ Z ) 2 (Zj = Yj - Xj) 

尸 1 

自由度为 (2 _1)(?7 —1) = 71 -1 .而 

2 

5 仏 = ~Y..) 2 ^ n[(X — (X 十 Y)/2) 2 

i = 1 

+ (? - (X + Y)/2) 2 ] 

=f(x - v) 2 = fz 2 

自由度为 2-1 = 1 •故即 a ^ b 的 F 检验 为：当 

号 ！ 2 1 ( - ^ ) 2 /(n - 1)1> U a ) 

\ 尸 1 」 
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时否定 h q ， 即当 

n _ v 1/2 

T EU - z ) 2 >/ Y Un ~( a ) 

1 /二 1 / 

时否定仏.由于 dyU /2) 二巧，„_ 1 («)(这是因为，按定义，若 

i ，则 X 2 〜 Fum ) ，这个检验与 （ a ) 中得到的一致 • 

10. 这张正交表叫 L s (2 7 ) 正交表.它只能排2水平因子，至多 

7个，试验一定做8次，不能多也不能少. 

把因子 A ， S ， C 分别排在第1，2,4列头上，区组也视为一个 

因子 D ， 排在第5列头上，则得到如下的 设计： 

区组 

其中例如， Aii ^ Ci 表示因子 A 取水平 1， JB 取水平 2， C 取 
水平1,余类推. 

其所以舍掉第3列不用，是为了避免某些组合做两次（如 
A . B . C , 等），而某些组合 ( AWt 等）则不出现，按上述设计，则 
8种可能的组合各出现了一次. 

此设计 A ， B ， C 及区组各占一自由度，共4个自由度.全部自 
由度为 8-1=7, 故误差平方和 S & 尚有三个自由度. 
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附 


表 


1. 标准正态分布表 

本表列出了标准正态分布函数少 （ x ) = { V 2 kY 1 " e~ f n dt 

J — oc 

当 <2.98 之值.此范围内不能直接查出之值，可用线性插值 
法，对: r < 0 可用 0U) 二 1 - 0(- 了）化为: c > 0 的情况 • 


X 

0-00 

0.02 

0.04 

0.06 

0,08 

0,0 

0.5000 

0.5030 

0.5160 

1 

0.5239 

0.5319 

0.1 

0-5398 

0,5478 

0.5557 

0.5636 

0.5714 

0.2 

1 0.5793 

1 

0,5871 

0.5948 

0 • 6026 

0.6103 

0.3 

0.6179 

0.6255 

0.6331 

0 . 6406 

0*6480 

0,4 

0,6554 

0.6628 

0.6700 

0.6772 

0•6844 

0,5 

! 

0.6915 

0,6985 

0-7054 

0.7123 

0.7190 

0.6 

0.7257 

0.7324 

0-7389 

0-7454 

0,7517 

0.7 

0.7580 

0.7642 ! 

0.7703 

0.7764 

0.7823 

0.8 

0.7881 , 

0.7939 

0 . 7995 

0.8051 

0.8106 

0,9 

0-8159 

0.8212 

0- 8264 

0.8315 

0.8365 

1.0 

i 

0.8413 

0.8461 

0.8508 

0.8554 

0.8599 

i,i 

晒 

0 . 8643 

0.8686 

0.8729 

0-8770 

0-8810 

1.2 

0.8849 

0.8888 

0.8925 

0 . 8962 

0.8997 

13 

0 . 90320 

0.90658 

0.90988 

0.91809 

0,91621 

1,4 

0*91924 

0.92220 

0.92507 

1 

0.92785 

0.93056 

1*5 

0.93319 

0.93574 

0 . 93822 

0-94062 

0.94295 

i .6 

0.94520 

0.94738 

0.94950 

C. 95154 

0.95352 

1.7 

0.95543 

0.95728 

0.95907 

0.96080 

! 0.96246 

1.8 

0.96407 | 

0.96562 

0.96712 

i 

0.96856 

i 

0.96995 
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续表 



0-00 

0-02 

0.04 

0.06 

0.08 

1.9 

0.97128 

0.97257 

0.97381 

0.97500 

0.97615 

2.0 , 

0,97725 

0.97831 

0.97932 

0 . 98030 

0.98124 

2.1 

0.98214 

0,98300 

0 . 98382 

0.98461 

0.98537 

2*2 

0.98610 

0.98679 

0. 98745 

0.98809 

0 . 98870 

2.3 

0-98928 

1 

1 

0 . 98988 

0,99036 

0,99086 ; 

0.99134 

2,4 

0.99180 

0.99224 

0 . 99266 

0.99305 

0.99343 

2.5 

0.99379 

1 

0.99413 

! 0.99446 

: 0 . 99477 

0.99506 

2.6 

0.99534 

0.99560 

0.99586 

0 ■ 99609 

0.99632 


0.99653 

0.99674 

0- 99693 

0.99711 

0.99728 

2-8 

0.99745 

0.99760 

0.99774 

0*99788 

0,99801 

2.9 

0.99813 

0 . 99825 

0.99836 

CL 96846 

0*99856 


2. 标准正态分布双侧上分位点 w a/2 表 

本表列出满足条件 P (| X |> Ma /2 )= a 的，其中 X 服从 
标准正态分布. 


a 

mm 

0.1 

0.2 

0.3 

0.4 

◦ ,00 


1 . 6449 

1.2816 

1-0364 

0-8416 

0.01 

2.5758 

1.5982 

1-2536 

1.0152 

0.8239 

0.02 

2.3268 

1.5548 

K 2265 

0.9945 

0 . 8064 

0.03 

2.1701 

1.5141 

1*2004 

0.9741 

0 . 7892 

0,04 

2.0537 

1.4758 

K 1750 

0.9542 

0.7722 

0.05 

1 ■ 9600 

1,4395 

1.1503 


0.7554 

0.06 

1.8808 

1.4051 

1 . 1264 

0.9154 

0 . 7388 

0.07 

1.8119 

1 • 3722 

1.1031 

0.8965 

0.7225 

0.08 

1.7507 

1.3408 

1. Q 808 

0.8779 

0 ■ 7063 

0.09 

1 . 6954 

1.3106 

1.0581 

0.8596 

0.6903 
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3 . f 分布上侧分位点 („( a ) 表 

设随机变量 X 服从自由度为〃的 （ 分布，本表列出满足条件 
F ( x > r „( a )) = a 的值 & U ). 



0.05 

0.025 

0.01 

0,005 

X 

0.05 

0*025 

0.01 

0.005 

1 

6.314 

12.706 

31,821 

63.657 

16 

1.746 

2.120 

2,583 

2,921 

2 

2.970 

4.303 

6.965 

9.925 

17 

1.740 

2.no 

2.567 

2.898 

3 

2.353 

3.182 

4.541 

5.841 

18 

1.734 

2.101 

2.552 

2-878 

4 

2-132 

2.776 

3.747 

4.604 

19 

1.729 

2.093 

2,539 

2.861 

5 

2.015 

2.571 

3.365 

4.032 

20 

U 725 

2.086 

2.528 

2.845 

6 

1.943 

2*447 

3.143 

3.701 

21 

1-721 

2.080 

2.518 

2.831 

7 

1-895 

2.365 

2.998 

3*499 

22 

1.717 

2.074 

2,508 

2.819 

8 

1.860 

2306 

2.896 

3-355 

23 

1.714 

2,069 

2.500 

2.807 

9 

1.833 

2.262 

2.821 

3.250 

24 

- 1.711 

1 

2,064 

2.492 

2.797 

10 

K 812 

2.208 

2.764 

3.169 

25 

1,708 

2.060 

2.485 

2.787 

11 

1.796 

2.201 

2.718 

3.106 

26 

1.706 

2.056 

2.479 

2,779 

12 

1.782 

2.179 

2,861 

3.055 

27 

1.703 

2.052 

2.473 

2.77] 

13 

1.771 

2.160 

2.650 

3.012 

28 

1.701 

2.048 

2.467 

2*763 

14 

1,761 

2.145 

2.624 

2.977 

29 

1,699 

2,045 

2.462 

2-756 

15 

1.753 

2-131 

2.602 

2.947 

30 

1.697 

2.042 

2.457 

2,750 


属 
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4_ 普阿松分布表 P(X ~ r)- ^re~ A 

r! 



A 

f 

0.1 

0.2 

0.3 

0.4 

0.5 

0*6 

0.7 

0.8 

0 

.90483 

•81873 

.74081 

.67032 

.60653 

.54881 

.49658 

.44932 

1 

•09048 

.16374 

•22224 

•26812 

■30326 

.32928 

•34761 

.35946 

2 

,00452 

.01637 

.03333 

.05362 

-07581 

•09878 

.12166 

.14378 

3 

.00015 

.00109 

,00333 

•00715 

.01263 

.01975 

i -02838 

■03834 

4 

.ooooo 

.00005 

.00025 

.00071 

.00158 

.00296 

-00496 

.00766 

5 


•00000 

.00001 

.00005 

.00015 

.00035 

- 00069 

.00122 

mm 



•ooooo 

.00000 

.00001 

.00003 

.00008 

.00016 

7 





.ooooo 

.00000 

.00000 

.00001 

8 


— 





.00001 

.ooooo 





A 


■J --- - 



■D 

1.0 

1.5 

2*0 

2.5 

3.0 

3.5 

4.0 

0 

•40657 

.36787 

.22313 

•13533 

. 08208 

-04978 

.03019 

.01831 

1 

.36591 

i 

.36787 

.33469 

. 27067 

■20521 

.14936 

* 10569 

.07326 

2 

.16466 

- 18394 

-25102 

. 27067 

.25651 ■ 

.22404 

.18495 

.14652 

3 

.04939 

.06131 

-12551 

.18044 

.21376 

.22404 

.21578 

.19536 

4 

.01111 

.01532 

• 04706 

- 09022 

.13360 

.16803 

.18881 

.19536 

5 

.00200 

. 00306 

.01412 

.03608 

. 06680 

.10081 

.13216 

.15629 

mm 

.00030 

.00051 

- 00353 

.01203 

- 02783 

,05040 

.07709 

.10419 

7 

.00003 

• 00007 

■ 00075 

- 00343 

,00994 

■02160 

,03854 

•05954 

8 

■ 00000 

.ooooo 

.00014 

.00085 

,00310 

.00810 

,01686 

-02977 

■ 


- ooooo 

• 00002 

.00019 

• 00086 

.00270 

■ 00655 

•01323 

10 

晒 


•ooooo 

■ 00003 

.00021 

.00081 

• 00229 

- 00529 

11 




.ooooo 

.00004 , 

• 00022 

.00073 

•00192 

12 




•ooooo 

•00001 

.00005 

.00021 

.00064 

13 





•ooooo 

.00001 

-00005 

.00019 

14 






.ooooo 

■ 00001 

• 00005 

15 






.ooooo 

.ooooo 

.00001 

16 







,ooooo 

•ooooo 

17 

















■OOOOO 


• 410 . 










5. 卡方分布上侧分位点 X 〗（ a ) 表 

设随机变量 X 服从自由度为的卡方分布，本表列出满足条 
件 PU >; t 2 „( a )) = a 的值 X 2 „ U ). 



0.995 

0*99 

0,975 

0.95 

0.90 

0.75 

0.50 

1 

— 

0.0002 

0,001 

0.004 

0.016 

0.102 

0.455 

2 

0.010 

0.020 

0.051 

0.103 

0,211 

0.575 

1,386 

3 

0.072 

0.115 

0.216 

0.352 

0.584 

1.213 

2.366 

4 

0.207 

0.297 

0.484 

0.711 

1.064 

1.923 

3,357 

5 

0,412 

0.554 

0.831 

1.145 

1.610 

2.675 

4.351 

mm 

0.676 

0.872 

1.237 

1.635 

2,204 

3.455 

5.348 

7 

0.989 

1.239 

1.690 

2.167 

2‘833 

4.255 

6.346 

8 

1.344 

1.646 

2.180 

2.733 

3,490 

5.071 

7.344 

9 

1*735 

2.088 

2.700 

3.325 

4.168 

5.899 

8.343 

10 

2.156 

2.558 

3.247 

3,940 

4-865 

6.737 

9.342 

11 

2.603 

3*053 

3.816 

4.575 

5.578 

7.584 

10.341 

12 

3.074 

3.571 

4.404 

5 + 226 

6.304 

8.438 

11340 

13 

3.565 

4.107 

5.009 

5,892 

7.042 

9.299 

12.340 

14 

4.075 

4,660 

5.629 

6.571 

7.790 

10.165 

13.339 

15 

4,601 

5.229 

6.262 

7.261 

8.547 

11.037 

14.339 

16 

5.142 

5.812 

6-908 

7.962 

9.312 

11.912 

15.338 

17 

5.697 

6.408 

7,564 

8.672 

10.085 

12.792 

16.338 

18 

6,265 

7.015 

8.231 

9,390 

10.865 

13.675 

17.338 

19 

6.844 

7.633 

8.907 

10.117 

11.651 

14.562 

18.338 

20 

7.434 

8.260 

9.591 

10.851 

12.443 

15.452 

19.337 

mm 

8.034 

8.897 

10.283 

1.1.591 

13.240 

16344 

20.337 

22 

8.643 

9,542 

10,982 

12.338 

14.042 

17,240 

21.337 

23 

9,260 

10.196 

11.689 

13.091 

14.848 

18.137 

22.337 

24 

9.886 

10.856 

12.401 

13.848 

15.659 

19.037 

23.337 

25 

10-520 

11.524 

13.120 

14.611 

16,473 

19,939 

24.337 

26 

11_160 

12,198 

13.844 

15_379 

17.292 

20.843 

25_336 

27 

11.808 

12,879 

14.573 

16.151 

18.114 

21.749 

26.336 

28 

12.461 

13.565 

15.308 

16*928 

18.939 

22.657 

27.336 

29 

13.121 

14.257 

16.047 

17.708 

19.768 

23 _ 567 

28.336 

30 

13.787 

14.954 

16.791 

18.493 

20,599 

24 . 478 

29 _ 336 
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0.30 

0.25 

0.10 

0.05 

0.025 

0.01 

0.005 

1 

1-074 

1.323 

2.706 

3.841 

5,024 

6,635 

7.879 

2 

2.408 

2.773 

4.605 

5.991 

7‘378 

9.210 

10.597 

3 

3.665 

4.108 

6.251 

7.815 

9.348 

11.345 

12,838 

4 

4.878 

5.385 

7.779 

9,488 

11.143 

13.277 

14.860 

5 

6.064 

6.626 

9.236 

11.071 

12.833 

15.086 

16.750 

■ 

7.231 

7*841 

10.645 

12,592 

14,449 

16.812 

18.548 

7 

8.383 

9*037 

12.017 

14,067 

16.013 

18.475 

20.278 

8 

9,524 

10.219 

13.362 

15,507 

17.535 

20.090 

21-955 

9 

10.656 

11.389 

14,684 

16,919 

19.023 

21.666 

23_589 

10 

11.781 

12*549 

15.987 

18*307 

20.483 

23.209 

25.188 

11 

12.899 

13.701 

17.275 

•19.675 

21.920 

24.725 

26.757 

12 

14.011 

14.845 

18.549 

21.026 

23.337 

26.217 

28.299 

13 

15.119 

15.984 

19.812 

22362 

24.736 

27.688 

29.819 

14 

16.222 

17.117 

21.064 

23.685 

26.119 

29.141 

31,319 

15 

17,322 

18.245 

22.307 

24.996 

27,488 

30.578 

32.801 

16 

18.418 

19,369 

23.542 

26.296 

28,845 

32.000 

34.267 

17 

19.511 

20.489 

24,769 

27,587 

30.191 

33.409 

35.718 

18 

20.601 

21.605 

25.989 

28.869 

31,526 

34.805 

37.156 

19 

21.689 

22.718 

27.204 

30.144 

32,852 

36.191 

38.582 

20 

22.775 

23.828 

28,412 

31,410 

34.170 

37.566 

39.997 

21 

23.858 

24•935 

29.615 

32.671 

35‘479 

38.932 

41.401 

22 

24.939 

26.039 

30.813 

33.924 

36.781 

40.289 

42.796 

23 

26.018 

27.141 

32.007 

35.172 

38.076 

41.638 

44.181 

24 

27.096 

28.241 

33.1% 

36.415 

39364 

42.980 

45,559 

25 

28.172 

29,339 

34,382 

37.652 

40.646 

44.314 

46.928 

26 

29.246 

30.435 

35.563 

38.885 

41.923 

45,642 

48.290 

27 

30.319 

31.528 

36.741 

40.113 

43.194 

46.963 

49.645 

28 

31.391 

32.620 

37.916 

41.337 

44.461 

48.278 

50.993 

29 

32.461 

33.711 

39*087 

42.557 

45.722 

49.588 

52 336 

30 

33.530 

34.800 

40*256 

43.773 

46,979 

50.892 

53.672 
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6. F 分布上侧分位数表 


设随机变量 X 服从自由度为 m 和; 7的 F 分布，本表列出满 
足条件 P ( X > F rn , n ( a ) = a 的值 F m ，„(«). 


A.a 二 0.05 


\^n 

" X 

1 

2 

3 4 

5 - 

6 

7 

8 

1 

161 

200 

216 

225 

230 

234 

237 

239 

勹 

r 

A—p 

18.5 

19,0 

19.2 

19.2 

19,3 

19.3 

19.4 

19.4 

3 

10, 1 

9_55 

9.28 

9.12 

9.01 

8.94 

8.89 

8.85 

4 

7,71 

6,94 

6.59 

6.39 

6*26 

6.16 

6.09 

6.04 

5 

6,61 

5.79 

5.41 

5.19 

5.05 

4.95 

4.88 

4.82 

mm 

5.99 

5.14 

4-76 

4,53 

4.39 

4.28 

4_21 

4.15 

7 

5.59 

4.74 

4*35 

4,12 

3.97 

3.87 

3,79 

3,73 

8 

532 

4.46 

4.07 

3.84 

V 

3,69 

3,58 

3.50 

3.44 

9 

5.12 

4.26 

3.86 

3.63 

3.48 

3.37 

3.29 

3.23 

10 

4,96 

4.10 

3.71 

3.48 

3-33 

3.22 

3.14 

3.07 

11 

4.84 

3.98 

3.59 

3.36 

3.20 

3.09 

3.01 

2.95 

12 

4,75 

3.89 

3.49 

3.26 

3,11 

3.00 

2.91 

2.85 

13 

4.67 

3.81 

3.41 

3,18 

3.03 

2.92 

2.83 

2.77 

14 

i 

4.60 

3.74 

3,34 

3.11 

2.96 

2.85 

2.76 

2,70 

15 

4,54 

3.68 

i 

3,29 

3.06 

2.90 

2.79 

2.71 

2.64 

16 

4.49 

i 

3-63 

3.24 

3,01 

2,85 

2.74 

2.66 

2.59 

17 

4.45 

3.59 

3.20 

2.96 

2.81 

2,70 

2.61 

2.55 

18 

4.41 

3.55 

! 3-16 

2.93 

2 J 1 

2.66 

2,58 

2.51 

19 

438 

3.52 

3.13 

2.90 

2.74 

2.63 

2,54 

2.48 

20 

4.35 

3.49 

3.10 

2.87 

2.71 

2.60 

2,51 

2.45 

21 

4.32 

3.47 

3*07 

2.84 

2.68 

2.57 

2.49 

2.42 

22 

4.30 

3-44 

3.05 

2.82 

2.66 

2.55 

2.46 

2.40 

23 

4.28 

3.42 

3.03 

2.80 

2.64 

2.53 

2,44 

2.37 

24 

4.26 

3.40 

3.01 

2.78 

2.62 

2.51 

2.42 

2.36 

25 

4.24 

3.39 

2.99 

2.76 

2.60 

2.49 

2.40 

2.34 

26 

4,23 

3.37 

2.98 

2/14 

2.59 

2.47 

2.39 

2.32 

27 

4_21 

3.35 

2.96 

2.73 

2,57 

2.46 

2.37 

2.31 

28 

4.20 

3.34 

2-95 

2,71 

2.56 

2.45 

2.36 

2.29 

29 

4.18 

3.33 

2.93 

2.70 

2.55 

2.43 

2.35 

2.28 

30 

4.17 

3.32 

2.92 

2.69 1 

2,53 

2.42 

2.33 

2-27 
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_ 

■ 

■ 

■ 

■ 

■ 

m 

■ 

8 

1 

405 

500 

54 a 

«» 

:-允 3 i 

;謂> 

5 j 

593 

598 

2 

98.5 

99.0 

99.2 

99-2 

99,3 


99.4 

99.4 

3 

34.1 

30.8 

29.5 

28-7 

28 . 2 j 


27.7 

27.5 

4 

21.2 

18.0 

16.7 

i 6 .tr 

， 

. 15.5 

15.2 

15,0 

14.8 

5 

16.3 

13.3 

12.1 

11.4 

11.0 

10-7 

10.5 

10.3 

mm 

13.7 

10,9 

9,78 

9,15 

8.75 

8.47 

8.26 

8.10 

7 

12.2 

9.55 

8,45 

7.85 

7.46 

7.19 

6.99 

6.84 

8 

11.3 

8.65 

7.59 

7.01 

6,63 

637 

6.18 

6.03 

9 

10.6 

8.02 

6.99 

6.42 

6,06 

5.80 

5.61 | 

5.47 

10 

UKO 

7,56 

6,55 

5.99 

5.64 

5.39 

5.20 

5.06 

11 

9,65 

7.21 

6,22 

5.67 

5.32 

5,07 

4,89 

4.74 

12 

9.33 

6 , 98 . 

5.95 

5.41 

5.06 

4.82 

4.64 

4.50 

13 

9.07 

6.70 

5.74 

5*21 

4.86 

i 

4,62 

4,44 

4.30 

14 

8.86 

6.51 i 

5,56 

5.04 

4,70 

4.46 

4,23 

4.14 

15 

8.68 

6.36 

5.42 

4.89 

4.56 

4.32 

AAA 

4.00 

16 

8.53 

6.23 

5.29 

4,77 

4.44 

4.20 

4,03 

3.89 

17 

8.40 

6_11 

5.18 

4,67 

4.34 

4.10 

! 3-93 

3.79 

18 

8.29 

6.01 

5.09 

4.58 

4.25 

4-01 

3-84 

3.71 

19 

8.18 

5.93 

, 5-01 

4.50 

4.17 

, 3.94 

3-77 

3,63 

20 

8.10 

5,83 

4.94 

4.43 

i 

4-10 

3.87 

3,70 

3.56 

21 

| 8.02 

| 5.78 

i 

4.87 

4.37 

1 4.04 

3.81 

3.64 

3.51 

i 

22 

7*95 

5.72 

4.82 

4.31 

3*99 

3.76 

3.59 

i 

3.45 

23 

7,88 

5.66 

4,76 

4.26 

3.94 

3.71 

3.54 

i 

3.41 

24 

7.82 

5.61 

4.72 

4.22 

3.90 

3.67 

3.50 

336 

25 

7.77 

5.57 

4.68 

4.18 

3,86 

3,63 

3.46 

3.32 

26 

7.72 

5.53 

4.64 

4.14 

3.82 

3.59 

3,42 

3.29 
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